丘成桐给AI出了多道数学题,上海四大模型现场解答,结果……
创始人
2025-07-27 11:01:48
0

昨天(26)举行的“人工智能的数学边界与基础重构”论坛上,一场没有硝烟的挑战赛正在上演:出题方是以首位华人菲尔兹奖获得者丘成桐为首的“数学家天团”,答题方则是上海人工智能的“顶流”——人工智能实验室、商汤科技、阶跃星辰和MiniMax。

逻辑推理是数学的核心。数百年来,数学家仅凭一张纸、一支笔,就能从迷宫中找到通往真理的路径,而如今的大模型已展现出强大的推理能力。这场挑战的结果是:4个本土大模型均通过“最强数学大脑”的命题考验,展现了上海AI的硬核实力。

论坛上还为Hitchin–Ngo 实验室(聚焦代数几何与数学物理)与Fefferman 实验室(深耕流体力学与纳维 - 斯托克斯方程)举行揭牌仪式,标志着全球顶尖数学力量落户上海。

赛题设计直击AI推理核心

一开始,大模型并不擅长数学。它们常常出现“幻觉”,甚至可能被误导相信2+2=5。但新一代大型推理模型展现的能力令数学家眼前一亮。不同于过去“一锤定音”式输出结果,这些模型开始尝试模拟数学家逐步推理的思考过程。

丘成桐对给AI出题表现出巨大兴趣,他不仅指派团队精心遴选多道高质量数学题并亲自审核把关,还邀请英国、日本的院士专门命题。

上海人工智能实验室拿到的是2025国际数学奥林匹克竞赛的一道几何题,但没有提供图片,大模型需要根据文字描述理解题目并给出证明;阶跃星辰拿到的是不等式极值求解题,需要给出复杂分式约束下的最小值证明;MiniMax拿到的是概率递归题,需要给N对袜子配对;商汤科技拿到的是平面几何题,有多种解法。4道题均需完成自然语言推理+形式化验证的双重挑战,难度对标数学博士入门级研究。

顶级数学家为何热衷于给AI出题?在中国科学院院士、数学家徐宗本看来,数学不仅是工具,也是一门技术,一方面它为AI框定能力边界和行为准则,另一方面,人们也能从答题过程中窥见AI的“内心戏”。

差异化答题揭示AI数学潜力

面对博士级难题,大模型们各显神通。因为没有给图片,上海人工智能实验室的书生模型决定“以力破巧”。“模型用超长时间对上下文进行思考后,开始去编写一个严谨的证明,而且整个过程不是以形式化语言(精确的数学或机器可处理的公式定义语言),而是以自然语言形式来完成的。”上海人工智能实验室技术专家张文蔚说。

深思熟虑是大模型推理能力提升的重要标志。一年前,OpenAI发布的推理模型o1,展现出此前模型所不具备的超级推理能力。o1与其他模型的最大差别就是它会深入思考,生成一个较长的内部思维链,包括复述一遍问题的要求、拆解任务、明确最终目标以及查漏补缺,它甚至还会提醒自己其中可能存在陷阱,并列出需要用到的知识点和步骤。完成这些之后,它才开始工作。张文蔚判断,书生的解题思路和o1完全一致。

阶跃星辰的step大模型则是通过一边解题、一边调用工具纠错的方式,实时推演成功。有意思的是,阶跃星辰技术专家万若斯发现,在解题过程中,step涌现出未被预设的全新解题思路。

AI是数学家的对手还是助手?从这两题的解答过程就能窥见一二。西班牙数学科学委员会研究员郑凡认为,AI既可以任劳任怨完成繁琐的推理工作,也具备“灵光一闪”提出新思路的能力,无论成为哪种角色都潜力巨大。

AI与数学“双引擎”加速耦合

上海科技大学数学科学研究所教授蔡明亮已习惯于有AI助手,他发现,有思路是解题的第一步,这道理适用于人,也适用于AI。

作为MiniMax拿到的那道题的出题者,他曾用它“考验”过许多AI,如果没有思路,即便把N设定为10,大模型也答不出来。当询问MiniMax的M1大模型为何能闯关成功时,技术专家周海刚回答里的一个词提醒了蔡明亮,答案正是思路。周海刚提到,MiniMax在让大模型获取高质量数据时,不会直接给答案,而是像教孩子一样,把最优的解答过程“喂”给大模型,这意味着好的知识沉淀往往要从过程中来。

大模型也深受使用者的影响。商汤科技的日日新大模型在解题时会根据不同提示词给出不同解法。这预示了在未来的工作中,人与AI的协同是多么重要。

当前,AI与数学这对“双引擎”正加速耦合,AI展现的强大推理能力,正将数学家从繁复的计算与验证中解放出来,使他们得以聚焦于更本源、更具创造性的问题,以及需要深刻直觉和想象力的领域。尽管大多数专家认为真正的创新和突破仍属人类,但前菲尔兹数学科学研究院院长库马尔·穆尔蒂不忘提醒人们,不要忽视想象的力量,甚至不要轻视大模型的幻觉,要把数学嵌入到AI之中,跳出思维定式,去提出更好的问题。

相关内容

热门资讯

工业和信息化部人形机器人与具身... 新华社北京12月27日电(记者周圆)工业和信息化部人形机器人与具身智能标准化技术委员会成立大会日前在...
资讯:小奶油喷红米教练认错道歉... 雷竞技S15全球总决赛LPL官方纪录片《争者留其名》中,一段关于TES战队的中场画面成为了舆论焦点。...
既有技术厚度,更有民生温度 □ 本报记者 张宣 实习生 李凌云 12月27日,以“智赋江苏,聚势腾飞”为主题的2025江苏省人工...
GEO排名查询工具怎么用?手把... 你的品牌在新兴的AI搜索引擎中“隐身”了吗?这正是GEO排名查询工具要回答的核心问题。随着生成式AI...
“风云家族”上“星” 太空“气... 中新社北京12月27日电 (记者 马帅莎 郑莹莹)风云四号C星(又称风云四号03星)12月27日在西...
智赋荆楚,灵启新程!华为坤灵中... 智能化浪潮席卷荆楚大地,在长江经济带与中部崛起战略的双重驱动下,湖北中小企业作为区域经济的“活力引擎...
贯彻中央部署,重要委员会成立!... 撰文 | 李岩 中国工信新闻网27日消息,26日,工业和信息化部人形机器人与具身智能标准化技术委员...
上海克林技术取得绕线系统专利,... 国家知识产权局信息显示,上海克林技术开发有限公司取得一项名为“一种绕线系统”的专利,授权公告号CN2...
超值预警!这免费官网竟能精准狙... 当免费成为主流,究竟哪款AIGC检测官网才能真正帮你识别和优化AI生成内容的网络可见度? 优采云AI...
2025全球智能手表出货量预计... 12月27号消息,根据Counterpoint Research最新发布的报告显示,全球智能手表出货...
数翊科技华中研发总部项目签约落... 近日,数翊科技与光谷光电子信息产业园签约,将在光谷建设华中研发总部,开发以分布式数据库软件为核心的A...
赛维斯照明取得筒灯结构专利,提... 国家知识产权局信息显示,中山市赛维斯照明有限公司取得一项名为“一种筒灯结构”的专利,授权公告号CN2...
广电流量卡深度测评:信号、流量... 办卡关注 微 信 公 众 号 :找卡乐园 这里是专为你打造的流量卡服务站,既能帮你揭开流量卡市场的各...
东旭光电取得重载连接器专利,具... 国家知识产权局信息显示,芜湖东旭光电装备技术有限公司取得一项名为“重载连接器”的专利,授权公告号CN...
【赠书福利】豆瓣9.1分的神级... 天气预报为什么总不准? 股市为什么难以预测? 心跳为什么偶尔会咯噔一下? ——全是“混沌”在捣鬼! ...
原航发集团董事长曹建国: 已从... 12月27日,据澎湃新闻报道,曾任中国航空发动机集团有限公司(简称“中国航发集团”)董事长、党组书记...
原创 荣... 2025年12月26日,根据多家科技媒体的消息,荣耀这家智能手机厂商在成都举办新品发布会,正式发布“...
理文造纸取得用于造纸生产的打浆... 国家知识产权局信息显示,广东理文造纸有限公司取得一项名为“一种用于造纸生产的打浆磨浆装置”的专利,授...
美国初创公司高管:人形机器人市... 在加利福尼亚州山景城举行的Humanoids Summit上,多位人形机器人初创公司的创始人与高管表...
更安全更便捷更微创:重庆医生首... 近日,聚焦胸外科机器人手术的专题研修活动“胸外科机器人手术大师班”在重庆医科大学附属大学城医院举行。...