563支AI队伍和姜萍答了同一份试卷:最高34分,无一入围决赛 —— AI挑战人类智慧边界
在最近结束的第六届阿里巴巴全球数学竞赛中,17岁的江苏涟水中学学生姜萍脱颖而出,她在全球数万名参赛者中排名12,不仅成为了决赛圈的焦点,也是30强中唯一的女性选手。此次竞赛的一大亮点是首次引入了AI大模型挑战赛,吸引了563支由全球顶尖学术机构和企业组建的AI团队与人类选手同台竞技,共解同一套试题。
4月13日,随着竞赛的钟声响起,数以万计的数学爱好者在全球范围内开始了他们的智力征程,试题涵盖选择题、解答题及证明题等多种类型。然而,尽管AI队伍展现了一定的实力,其平均分达到了18分,与人类选手持平,最高分却只有34分,远不及人类选手的113分高峰,无一支AI队伍进入最终的801人决赛名单。
值得关注的是,上海建平中学的涂津豪凭借独创的AI策略获得了AI队伍中的最高分,该策略灵感来源于自辩论思想,通过大模型之间的多轮问答验证来逼近问题的最佳解答。而来自西南交通大学和中国人民大学的两支AI队伍,则分别凭借独特的Multi-Agent系统设计荣获亚军和季军,展现了不同的解题思路与技术路径。
浙江大学计算机系统结构实验室的研究员陈天楚指出,当前大语言模型(LLM)在处理数学竞赛这类需要反复试错与深度思考的任务时,仍面临逻辑推理和严谨思考的局限性,尽管已有通过Prompt工程提升模型表现的尝试,但效果有限,尚不能与人类专家相提并论。
赛事组委会在点评中也强调了AI在逻辑推理和证明题方面的不足。一位互联网企业的技术总监认为,这次AI挑战赛不仅是对“百模大战”后AI模型能力的检验,更是凸显了在复杂逻辑推理和创新思维领域,人类选手依然保持明显优势。
尽管AI在本次数学竞赛中的表现未能超越人类,但这场较量被视作推动人工智能与数学理论发展的重要契机。今年,各支AI队伍通过多种技术创新探索提升AI数学能力的新途径,预示着未来人工智能与数学领域的互动将更加深入。
阿里巴巴全球数学竞赛自2018年创办以来,以其开放的参赛门槛和广泛的参与度,吸引了全球超过25万人次参与,成为全球最大的在线数学竞赛平台之一,持续激发着全球数学爱好者的热情与创造力。