腾讯首席AI科学家姚顺雨入职后首发研究成果
创始人
2026-02-03 23:01:16
0

IT之家 2 月 3 日消息,腾讯混元官网技术博客(Tencent HY Research)今日(2 月 3 日)上线并发表了一篇名为《从 Context 学习,远比我们想象的要难》的文章,系统介绍了腾讯混元团队联合复旦大学的一项新研究。

这是姚顺雨加入腾讯担任首席 AI 科学家后带领团队首次发布研究成果,也是腾讯混元技术博客首次公开。这一博客的推出,旨在分享腾讯混元研究员在前沿技术研究和实践中的探索与经验。

博客提到,过去几年,大语言模型的进化速度快得令人惊叹。如今的前沿模型,已经是顶级的“做题家”:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。

然而,这些耀眼的成绩单可能掩盖了一个真相:能在考场拿满分的学生,未必能胜任真实世界的工作

回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。我们发现在这些场景中,人类并不只依赖多年前学到的“死知识”,而是在实时地从眼前的 Context 中学习

然而,今天的语言模型并非如此。它们主要依赖“参数化知识”—— 即在预训练阶段被压缩进模型权重里的静态记忆。在推理时,模型更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。

这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的:我们优化出的模型擅长对自己“已知”的事物进行推理,但用户需要的,却是让模型解决那些依赖于杂乱、动态变化的 Context 的任务。

简而言之:我们造出了依赖“过去”的参数推理者,但世界需要的是能吸收“当下”环境的 Context 学习者。要弥合这一差距,我们必须从根本上改变模型的优化方向

为了衡量现有模型距离真正的“Context Learner”还有多远,姚顺雨团队构建了 CL-bench。这是一个专门评测语言模型能否从 Context 中学习新知识并正确应用的基准。

CL-bench 包含由资深领域专家精心制作的 500 个复杂 Context、1,899 个任务和 31,607 个验证标准。CL-bench 只包含一个简单但苛刻的要求:解决每个任务要求模型必须从 Context 中学习到模型预训练中不存在的新知识,并正确应用

具体来说,CL-bench 涵盖了四种广泛的现实世界 Context 学习场景:

  • 领域知识推理: Context 提供特定的领域知识(例如,虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。
  • 规则系统应用:Context 提供新定义的正式系统(例如,新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。
  • 程序性任务执行:Context 提供复杂的过程系统(例如,工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。
  • 经验发现与模拟: Context 提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务,能充分衡量模型的 Context 学习能力。

为了确保性能真正反映 Context 学习,而不是记忆或数据泄露,CL-bench 采用了无污染(Contamination-free)设计

  • 虚构创作:专家创作完全虚构的内容,例如为虚构国家设计一套完整的法律体系(包括新颖的判例和法律原则),或创建具有独特语法和语义的新编程语言。
  • 现有内容的修改:专家修改现实世界的内容以创建变体,例如更改历史事件、改变科学和数学定义,或修改技术文档和标准。
  • 整合小众和新兴内容:专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现、新发布的产品手册或技术文档,以及来自专门领域的特定知识。

在不提供任何 Context 的情况下,最先进的模型 GPT-5.1 (High) 仅能解决不到 1% 的任务。这证明了数据是无污染的,模型若不从 Context 中学习,几乎完全无法解决这些任务。

此外,CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖,意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言,领域专家花费约 20 小时标注每个 Context ,以确保任务构建的质量和深度。

CL-bench 中的每个任务都是完全可验证的。平均而言,每个 Context 关联 63.2 个验证标准,每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估,确保了评估的全面性。

该团队在 CL-bench 上评估了十个最先进的语言模型。结果揭示了清晰且一致的差距。

平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 Context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前的 SOTA 模型几乎不会从 Context 中学习。

IT之家附项目官网如下:

相关内容

热门资讯

楚雄大姚:技术赋能“智慧办事”... 近年来,楚雄州大姚县以群众和企业的需求为核心指引,借助技术赋能与服务创新双管齐下,持续拓展服务范围、...
腾讯首席AI科学家姚顺雨入职后... IT之家 2 月 3 日消息,腾讯混元官网技术博客(Tencent HY Research)今日(2...
普星电子取得单电池可充电对讲机... 国家知识产权局信息显示,厦门市普星电子科技有限公司取得一项名为“一种单电池可充电的对讲机”的专利,授...
美载人绕月飞行任务综合演练中止... 美国航空航天局当地时间2月2日进行“阿耳忒弥斯2号”载人绕月飞行任务的综合演练,涵盖推进剂加注、发射...
御风剑,驱鬼狮!《龙之谷》怀旧... 春节临近,《龙之谷》怀旧服为大家准备了节庆好礼,福利多多,马上嗨皮!驱鬼狮子坐骑、马年春节限定称号、...
一座千年古城的智慧密码 在世界新一轮科技革命和产业变革加速演进的当下,数字技术已成为变革的核心驱动力。 数字浪潮奔涌不息,泉...
1分钟18个梗,还让星神谈恋爱... 一直都知道《崩坏:星穹铁道》项目组很抽象,但自从4.0版本首个PV曝光后,大家才发现原来项目组还能抽...
减负焕新!《英雄之城3》年终大... 蜗牛游戏SLG手游巨作《英雄之城3》于2月3日迎来诚意满满的年终大版本更新!本次更新直击 “肝度高、...
华为Mate90首爆?再次领先... Mate80发布已有2个多月,是时候为下一代机型造势了。根据 @数码闲聊站 最新消息,华为Mate9...
《首都高赛车》2月26日登陆P... IT之家 2 月 3 日消息,开发商 Genki 宣布旗下《首都高赛车(首都高バトル / Tokyo...
《最终幻想14》恋人节2026... 《最终幻想14》恋人节现已开启!道具商城全新道具「战场玫瑰套装」及往年恋人节道具现已上架!同时还有往...
产研协同发力,全产业AI大模型... 来源:滚动播报 (来源:上观新闻) 1月30日,万联易达集团举办“以应用破局·以生态聚力”AI+...
高科智库推出孵化器业务 仟江水电讯社(2月3日 北京 高科智库)高科智库官网发布的最新信息显示:该智库日前已经正式推出能够集...
国内首个3C解决方案体验中心开... 2月3日,京东政企3C产品解决方案中心正式投入运营。作为国内首个专注3C领域、面向政企客户打造的一站...
市数据局开展关键政务信息系统数... 为切实提升我市关键政务信息系统应对突发安全事件的快速响应与协同处置能力,近日,市数据局组织专业技术力...
新华视点|“数字泔水”污染加剧... 2025年底,韦氏词典编辑出版商美国韦氏出版公司将英文单词“slop”(现常译作“泔水”)评选为20...
苹果式遥遥领先,iPhone单... iPhone 17系列在中国市场卖得好,但在美国市场卖得更好,根据市场调研机构Counterpoin...
永新:守护千家万户的“大水缸” “起飞!”随着指令的下达,一架无人机迅速升空,沿着水库岸线平稳飞行,对水库周边环境进行全景式扫描,实...
学习规划建议每日问答 | 如何... 新华社北京2月3日电 《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出:“加快智能电...