o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦
创始人
2025-07-01 13:43:54
0

新智元报道

编辑:定慧

【新智元导读】UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。

谁能想到,作为童年回忆的宝可梦,现在竟摇身一变,成了大模型的试金石!

在无数人的童年记忆中,《宝可梦》是一款意义非凡的游戏——简单的操作哪怕是年纪尚小的孩子也能轻松上手。

然而,要真正通关这款游戏,仍然需要缜密的规划和大量的时间投入。

如今,这款承载童年回忆的游戏,已悄然成为各大科技公司测试最新LLM的「香饽饽」。

从Anthropic到Google,从Claude到Gemini,各家模型纷纷亮出「通关宝可梦」的战绩作为展示推理、规划与长期记忆能力的证据。

而且通关后,谷歌的CEO劈柴都要亲自发帖来庆祝。

真的令人好奇,都2025年了,为何AI通关《宝可梦》就成了个大新闻?

更何况,宝可梦最早的发售是1995年,30年前的游戏为何成为了检验最新AI顶级模型的试金石?

这是因为最先进的AI也不一定拥有人类幼儿的感知和行动能力。

莫拉维克悖论

在LLM还未出现的1980年代,早期的人工智能似乎已经开始展现「智慧」。

人工智能的先驱汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人发现一个悖论。

要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

语言学家和认知科学家史迪芬·平克认为这是人工智能学者的最重要发现。经过35年人工智能的研究,他发现最重要的课题是:

困难的问题是易解的,简单的问题是难解的。

四岁小孩具有的本能——辨识人脸、举起铅笔、在房间内走动、回答问题——事实上却是工程领域内目前为止最难解的问题。

当新一代的AI出现后,股票分析师、石化工程师都要小心他们的位置被取代,但是园丁、接待员和厨师至少十年内都不用担心被人工智能所取代。

这也是目前所有顶级模型都希望通过宝可梦游戏证明的——目前的LLM到底有没有感知能力?

Claude Opus 4还在直播玩宝可梦,已经继续了12万+步

宝可梦作为评测基准,合理吗?

宝可梦被越来越多地用于评估现代大型语言模型,但存在一个很大的问题——目前的挑战都缺乏标准化。

Anthropic为Cladue模型提供了导航和读取游戏状态内存的工具。

该模型进行了几场道馆对战,大约执行了35,000个游戏内动作才到达电系道馆首领。

但Anthropic并未详细说明什么具体算作一个「动作」,也未说明允许多少次重试。

Google的Gemini 2.5 Pro已经完成了《宝可梦 蓝》(并在《宝可梦 红》中获得了第五个徽章)。

然而,它依赖额外的外部代码来提取更全面的游戏状态文本表示并指导决策。

并且运行完成游戏需要大量的时间,仅获得第五个徽章,就需要超过500个小时。

同时API的使用会产生大量费用。

如何才能将大模型最爱玩的《宝可梦》游戏转化为标准化评估框架,甚至是多种游戏的评估框架?

这就是今天介绍的Lmgame Bench,它精心选取了一批难度适中的游戏,并提供了分层测试机制,更适合衡量大模型的真实能力。

博客地址:https://lmgame.org/#/blog/pokemon_red

该测试基准由UCSD等重磅出品,研究了如何使用流行的视频游戏来评估现代LLM。

论文地址:https://arxiv.org/pdf/2505.15146

Lmgame基准测试

Lmgame Bench使用模块化测试框架——如感知、记忆和推理模块——系统地扩展模型的游戏能力。

这些测试框架使模型能够通过迭代交互循环与模拟游戏环境进行交互。

Lmgame-Bench采用了一种标准化的提示优化技术,以降低对提示的敏感性。

为了在没有任何外部定制游戏「脚手架」的情况下区分模型能力,Lmgame Bench精选了一系列中等难度的视频游戏。

这些游戏包括:

推箱子:得分计算方式为所有关卡中推到目标位置的箱子总数,统计范围从非常简单的关卡一直到Sokoban 1989中最难的关卡,直到出现第一个死局为止。

超级马里奥兄弟:分数是马里奥在所有关卡中累计的横向移动距离(游戏单位),直到失去全部三条生命或完成最终关卡为止。具备更强物理直觉和空间推理能力的模型通常能够获得更高的分数。

俄罗斯方块:分数是已注册的总方块数加上消除的总行数(乘以10倍系数),计算至游戏结束为止。不同的模型持续游戏的时间各不相同,这取决于它们高效处理下落方块的能力。例如,o3-pro能够有效清除超过10行,从而持续保持游戏进行。

2048:合并方块值的总和(例如,合并两个2会获得+4),记录直到棋盘停滞(连续十次回合没有合并或改变棋盘的移动)。然后我们会报告它们的总得分。由于游戏可以持续超过10万步,这为区分模型在较长时间范围内的能力提供了强有力的依据。

糖果消除:在固定的50步会话中消除的糖果总数。尽管游戏相对简单,但它能有效区分模型在优化移动步骤和清除糖果方面的能力。

逆转裁判:在所有案件关卡中正确操作(提交证据、对话选择等)的总次数,直到用尽五次错误决定机会(生命值)。此游戏用于评估模型的上下文理解和推理能力。

模块设计

许多模型在视觉理解上存在脆弱性,导致对游戏状态频繁误判。

想要在游戏中取得成功,需要有效的记忆机制来实现长期决策。

Lmgame针对性的开发了三大模块。

感知模块:将原始游戏帧或UI元素转换为结构化的符号/文本状态描述,减少对脆弱视觉的依赖。

内存模块:存储最近的状态、动作和反思笔记,以缩小动作空间并支持长期规划。

推理模块:综合所有其他模块的信息,并可选地开启长链式思维推理。

o3玩2048的记忆模块展示

Gym风格标准接口

不过研究人员发现,使用计算机直接操作智能体进行基准测试存在重大缺陷。

每款游戏都对计算机的操作要求不同,依赖基于屏幕截图的观测容易出现感知错误。

并且在对延迟敏感的的游戏中存在不可预测的延迟,这些问题都削弱了测试结果的一致性和可比性。

为此研究团队实现了一个采用Gym风格API的新标准化接口,来统一评估设置。

结合轻量级的感知与记忆辅助模块设计,稳定提示带来的差异并消除数据污染。

在13个领先模型上的实验表明,Lmgame-Bench具有挑战性,同时仍能有效区分不同模型。

排行榜前列由o3占据,这款模型以其强大的视觉感知、空间推理和长视野规划能力而著称。

不过令人意外的是,o3虽然完全拿下了2048、推箱子和俄罗斯方块,但是在糖果消除中远远落后。

现在,借助Lmgame提供的开源代码,任何人都可以通过一条命令为任何受支持的模型-游戏组合启动评估。

近期所有模型的进步表明,在数学和编程任务重,整合强化学习可以显著增强LLMs的推理能力。

即使是最简单的RL算法也能改善模型的规划和决策能力,这种能力在与复杂环境互动时显得尤为重要。

这些进展凸显了游戏环境作为评估LLMs的有效基准作用。

过去那些经典的游戏经过精心的设计,用来挑战人类的思维和认知能力。

同样地,这些游戏是极具价值但尚未被充分利用的AI基准测试资源。

同时,在经典游戏之外,我们现在还有众多的3A大作,可以预见,未来的评估体系将具有高度可扩展的发展路径。

Lmgame Bench的诞生,正是在这个背景下给出答案:真正的智能不仅要能写代码、做数学题,更要能在复杂、开放、动态的环境中持续思考、规划并行动。

而这场测试,还远未结束。

参考资料

https://lmgame.org/#/blog/pokemon_red

相关内容

热门资讯

宁波朗迪取得网布烫边切割装置专... 金融界2025年8月6日消息,国家知识产权局信息显示,宁波朗迪环境科技有限公司取得一项名为“网布烫边...
富兴塑膜取得PVC塑膜压纹成型... 金融界2025年8月6日消息,国家知识产权局信息显示,苍南县富兴塑膜有限公司取得一项名为“一种PVC...
美国拟2030年前在月球建成核... △艺术家描绘的月球上的电力系统。(图片来源:NASA) 当地时间8月5日,据多家美国媒体报道,美国交...
TTG3-1KSG,清清正反手... TTG3-1战胜KSG,终于结束了对KSG的连败。从EWC回来之后他们似乎变强了,清清证明了为什么萝...
中国电信视联网赋能基层治理 提... 近日,丰都县仁沙镇依托中国电信视联网技术,进一步提升基层治理智能化水平,推动乡村基层治理体系不断完善...
《上古OL》开发商被砍掉的《黑... 微软最近的大裁员砍掉了《上古卷轴OL》开发商备受期待的新IP(代号为黑鸟计划)以及Rare工作室的《...
山东科嘉电气:高效智能充电方案... 山东科嘉电气近日推出了两款创新充电设备,专为不同领域提供专业、高效、安全的充电解决方案。这些设备分别...
科技前沿丨普通家庭何时能用上保... 7月31日召开的国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》。会议指出,当前人工智...
泰科汽车取得油箱加油单向阀专利... 金融界2025年8月6日消息,国家知识产权局信息显示,芜湖泰科汽车科技有限公司取得一项名为“一种油箱...
当年吹爆Edge浏览器的我,现... 每位资深玩家,在对枪失败、团战暴毙后,都有一套神圣的仪式: “诶今天鼠标有点飘”、“这键盘键程不对”...
走出光伏同质化困境,BC生态圈... 来源:澎湃新闻 隆基绿能创始人、首席技术官李振国 同质化的红海厮杀,令光伏产业深陷恶性竞争泥潭。乘...
AL被打晕了?IG辅助抢大龙翻... ★游戏马蹄铁原创 AL对战IG第二局 IG无愧是现在LPL的人气王,流量王,他们的比赛不仅是明星选...
LOL:BLG被曝不是全华班,... Shadow护照是意大利的 在LPL赛区中,全华班自带流量和话题,像RNG、BLG这种主打全华班的...
紧盯AI人才,“鹅厂”招新,软... 8月6日,腾讯2026校园招聘正式启动。本次招聘面向2025年1月至2026年12月期间毕业的大学生...
DOTA2 7.39d 更新深... 当看到 7.39d 的更新日志时,我的第一反应是:这不是简单的数值微调,而是V社对当前版本生态的一次...
《仁王3》制作人访谈:保留硬核... 今年6月,《仁王3》发布了首支预告片,并宣布游戏将于明年年初正式发售,登陆PlayStation 5...
青春好市 | 以手抵心,对话千... 当棕榈叶在指尖翻飞成灵兽,当大漆在掌心打磨出光华,当破碎的古瓷片在你手中重获新生...这不是遥远的传...
IDC:Q2中国消费级游戏本市... IT之家 8 月 6 日消息,市场研究机构 IDC 今天发文,披露了中国消费级游戏 PC 市场的数据...
小米手机欧洲市场份额首超苹果,... 【太平洋科技快讯】8 月 6 日,小米集团合伙人、小米集团总裁、部总裁兼小米品牌总经理卢伟冰在社交媒...
王者荣耀:夏侯惇喜迎加强,亚连... 王者荣耀本赛季已经进入中期,还没有拿到王者印记的小伙伴确实该抓紧时间了,毕竟到了赛季后半段上分难度会...