谷歌DeepMind捅破AI数学推理上限 IMO竞赛达银牌水准
谷歌DeepMind捅破AI数学推理上限
7月26日,谷歌DeepMind团队公布了一项研究进展,他们在博客中介绍,自主研发的AlphaProof和AlphaGeometry 2两款AI模型成功挑战了数学领域的高级逻辑难题,达到了国际数学奥林匹克竞赛(IMO)银牌水平的解题能力。
AlphaProof是运用强化学习构建的创新数学推理系统,而AlphaGeometry 2则是对原有几何问题求解系统的优化升级。通过这两个模型的协同工作,DeepMind团队在本年度IMO的6个赛题中攻克了4题,首次与IMO银牌获奖者的解题成绩比肩。
为了确保评估的公正性和专业性,DeepMind组建了一个由顶尖数学家构成的评审小组,成员包括IMO金牌得主及菲尔兹奖获得者蒂莫西·高尔斯教授,以及两度摘得IMO金牌、现任IMO 2024年问题挑选委员会主席的约瑟夫-迈尔斯博士。他们依据IMO的标准对AI解题成果进行了评判。
AI模型的运作机制涉及将IMO的赛题转化为模型可解读的数学表述。具体而言,AlphaProof专注于代数和数论问题,不仅找出了两个问题的答案,还完成了证明,其中一个被证实是最具挑战性的题目,仅本届IMO中有5名选手成功解答。AlphaGeometry 2则专注于几何题,但在组合问题上未能找到解决方案。
按照IMO的计分制度,每题满分为7分,总分42分。DeepMind的这套系统总共获得了28分,意味着每道被解决的问题均得到了满分,这一成绩等同于银牌选手的顶级表现。尽管如此,2024年金奖的最低分数线设定在29分,当年共有58名参赛者在609人的激烈竞争中赢得了金奖殊荣。