丘成桐给AI出了多道数学题,上海四大模型现场解答,结果……
创始人
2025-07-27 11:01:48
0

昨天(26)举行的“人工智能的数学边界与基础重构”论坛上,一场没有硝烟的挑战赛正在上演:出题方是以首位华人菲尔兹奖获得者丘成桐为首的“数学家天团”,答题方则是上海人工智能的“顶流”——人工智能实验室、商汤科技、阶跃星辰和MiniMax。

逻辑推理是数学的核心。数百年来,数学家仅凭一张纸、一支笔,就能从迷宫中找到通往真理的路径,而如今的大模型已展现出强大的推理能力。这场挑战的结果是:4个本土大模型均通过“最强数学大脑”的命题考验,展现了上海AI的硬核实力。

论坛上还为Hitchin–Ngo 实验室(聚焦代数几何与数学物理)与Fefferman 实验室(深耕流体力学与纳维 - 斯托克斯方程)举行揭牌仪式,标志着全球顶尖数学力量落户上海。

赛题设计直击AI推理核心

一开始,大模型并不擅长数学。它们常常出现“幻觉”,甚至可能被误导相信2+2=5。但新一代大型推理模型展现的能力令数学家眼前一亮。不同于过去“一锤定音”式输出结果,这些模型开始尝试模拟数学家逐步推理的思考过程。

丘成桐对给AI出题表现出巨大兴趣,他不仅指派团队精心遴选多道高质量数学题并亲自审核把关,还邀请英国、日本的院士专门命题。

上海人工智能实验室拿到的是2025国际数学奥林匹克竞赛的一道几何题,但没有提供图片,大模型需要根据文字描述理解题目并给出证明;阶跃星辰拿到的是不等式极值求解题,需要给出复杂分式约束下的最小值证明;MiniMax拿到的是概率递归题,需要给N对袜子配对;商汤科技拿到的是平面几何题,有多种解法。4道题均需完成自然语言推理+形式化验证的双重挑战,难度对标数学博士入门级研究。

顶级数学家为何热衷于给AI出题?在中国科学院院士、数学家徐宗本看来,数学不仅是工具,也是一门技术,一方面它为AI框定能力边界和行为准则,另一方面,人们也能从答题过程中窥见AI的“内心戏”。

差异化答题揭示AI数学潜力

面对博士级难题,大模型们各显神通。因为没有给图片,上海人工智能实验室的书生模型决定“以力破巧”。“模型用超长时间对上下文进行思考后,开始去编写一个严谨的证明,而且整个过程不是以形式化语言(精确的数学或机器可处理的公式定义语言),而是以自然语言形式来完成的。”上海人工智能实验室技术专家张文蔚说。

深思熟虑是大模型推理能力提升的重要标志。一年前,OpenAI发布的推理模型o1,展现出此前模型所不具备的超级推理能力。o1与其他模型的最大差别就是它会深入思考,生成一个较长的内部思维链,包括复述一遍问题的要求、拆解任务、明确最终目标以及查漏补缺,它甚至还会提醒自己其中可能存在陷阱,并列出需要用到的知识点和步骤。完成这些之后,它才开始工作。张文蔚判断,书生的解题思路和o1完全一致。

阶跃星辰的step大模型则是通过一边解题、一边调用工具纠错的方式,实时推演成功。有意思的是,阶跃星辰技术专家万若斯发现,在解题过程中,step涌现出未被预设的全新解题思路。

AI是数学家的对手还是助手?从这两题的解答过程就能窥见一二。西班牙数学科学委员会研究员郑凡认为,AI既可以任劳任怨完成繁琐的推理工作,也具备“灵光一闪”提出新思路的能力,无论成为哪种角色都潜力巨大。

AI与数学“双引擎”加速耦合

上海科技大学数学科学研究所教授蔡明亮已习惯于有AI助手,他发现,有思路是解题的第一步,这道理适用于人,也适用于AI。

作为MiniMax拿到的那道题的出题者,他曾用它“考验”过许多AI,如果没有思路,即便把N设定为10,大模型也答不出来。当询问MiniMax的M1大模型为何能闯关成功时,技术专家周海刚回答里的一个词提醒了蔡明亮,答案正是思路。周海刚提到,MiniMax在让大模型获取高质量数据时,不会直接给答案,而是像教孩子一样,把最优的解答过程“喂”给大模型,这意味着好的知识沉淀往往要从过程中来。

大模型也深受使用者的影响。商汤科技的日日新大模型在解题时会根据不同提示词给出不同解法。这预示了在未来的工作中,人与AI的协同是多么重要。

当前,AI与数学这对“双引擎”正加速耦合,AI展现的强大推理能力,正将数学家从繁复的计算与验证中解放出来,使他们得以聚焦于更本源、更具创造性的问题,以及需要深刻直觉和想象力的领域。尽管大多数专家认为真正的创新和突破仍属人类,但前菲尔兹数学科学研究院院长库马尔·穆尔蒂不忘提醒人们,不要忽视想象的力量,甚至不要轻视大模型的幻觉,要把数学嵌入到AI之中,跳出思维定式,去提出更好的问题。

相关内容

热门资讯

《影之刃零》试玩首日,制作人梁... Transparency 《影之刃零》是由灵游坊自主研发并发行的一款买断制单机动作游戏,作品借助Un...
马卡龙潮酷设计加持:荣耀Ear... 在当下真无线蓝牙耳机市场,产品数量激增,消费者却常陷入选择困境。想要出色音质、强效降噪,又希望续航持...
OPPO申请图像投影设备专利,... 金融界2025年7月26日消息,国家知识产权局信息显示,OPPO广东移动通信有限公司申请一项名为“图...
土星卫星恩塞拉多斯:喷泉含盐,... 在浩瀚无垠的宇宙深处,隐藏着诸多令人惊叹的秘密,而土星的卫星恩塞拉多斯便是其中一颗充满神秘色彩的天体...
人工智能重塑智慧教育 智能助手... 中新网北京7月26日电(记者 吴涛)“我国智慧教育基础设施不断夯实,已建成全球规模最大的国家学术互联...
腾讯多款AI产品亮相大会 将披... 7月26日,在2025世界人工智能大会(WAIC 2025)现场,腾讯以“让好用的AI成为惠及人人的...
赛博朋克赛车新作《Cyber ... 如果把《赛博朋克2077》和《极品飞车》结合起来,再加点《烈火战车》或《争分夺秒》的调味剂,会得到什...
自动驾驶商业化提速 上海发放新... “模数引领,智行未来”AI赋能自动驾驶创新发展论坛今天在沪举行。会上,上海正式发放8张智能网联汽车示...
格力电器获得发明专利授权:“空... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“空调...
湾区“特种兵”吃“鸡”又尝虾,... 7月26日,2025湾区“吃虾上分・夏日开战”电竞龙虾美食节在万江街道华南MALL商圈举行。活动以“...
实探|上海这场会AI含量拉满、... 7月26日的上海市区阵雨绵绵,世博展览馆内却热度飙升。以“智能时代同球共济”为主题的2025世界人工...
丘成桐给AI出了多道数学题,上... 昨天(26)举行的“人工智能的数学边界与基础重构”论坛上,一场没有硝烟的挑战赛正在上演:出题方是以首...
两度破解世界顶级密码!“密码女... 来源:羊城派 数智时代的安全感,是怎么被“算”出来的?在数字洪流席卷全球的时代,有这么一位女性科学家...
DNF手游苍穹贵族号主题游轮亮... 7月26日傍晚,由广东省新闻出版局、广州市文化广电旅游局指导,腾讯游戏主办的《地下城与勇士:起源》(...
中科院发布磐石·科学基础大模型... 快科技7月26日消息,在2025世界人工智能大会的舞台上,中国科学院联合团队正式发布了“磐石·科学基...
格隆汇申请一种人脸识别设备专利... 金融界2025年7月26日消息,国家知识产权局信息显示,深圳格隆汇信息科技有限公司申请一项名为“一种...
双台风影响加剧 福建海事启动船... 近期多个台风在西太平洋洋面生成,其中今年第7号台风“范斯高”和第8号台风“竹节草”从南北两面影响台湾...
周末,重磅发布!事关人工智能 7月26日,以“智能时代 同球共济”为主题的2025世界人工智能大会在上海开幕。大会展览面积首次突破...
Facebook 网络环境最差... IT之家 7 月 27 日消息,随着互联网社交和娱乐活动的增加,各大平台都或多或少地面临一些问题,例...
厦钨新能获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示厦钨新能(688778)新获得一项发明专利授权,专利名为“一种...