突破单链思考上限,清华团队提出原生「并行思考」scale范式
创始人
2025-09-17 13:41:28
0

近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Thought)。

然而,这条路径正面临着一个明显的瓶颈:随着计算资源的持续投入,性能提升变得微乎其微,甚至陷入停滞。

来自清华大学 AIR 的一篇最新研究论文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》对这一瓶颈发起了挑战 。

该研究一针见血地指出,这个单链 test time scaling 的天花板并非模型能力的固有极限,而是源于当前顺序推理策略的根本缺陷 —— 一种被研究者称为「隧道视野」(Tunnel Vision)的现象。

为此,团队提出了模型原生的并行化思考方案,训练 LLM 在一次推理中同时生成和综合多个不同的推理路径,从而有效规避「隧道视野」问题,解锁模型潜在的推理能力。

该研究证明,与串行扩展计算深度相比,并行扩展计算宽度是一种更有效、更高效的推理策略。

  • 论文标题:
  • ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
  • 作者:Hao Wen*, Yifan Su*, Feifei Zhang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li (*Equal Contribution)
  • 机构:清华大学
  • 论文地址:https://arxiv.org/pdf/2509.04475

隧道视野:深度思考的阿喀琉斯之踵

扩展瓶颈(Scaling Bottleneck): 如下图所示,对于单个推理路径(P=1),当投入的计算资源(即 Token 预算)超过一定限度后,模型准确率便不再提升,甚至可能下降,这表明「想得更久」并不能持续带来回报。

隧道视野(Tunnel Vision): LLM 在生成思维链的初期,一旦迈出有瑕疵的第一步,就很容易被锁定在一条次优的推理路径上,难以在后续步骤中纠正或发现更优的解法 。模型仿佛走进了一条狭窄的隧道,无论走多远,都无法摆脱最初错误方向的束缚。

如下图 (b) 所示,研究者进行了一项实验:他们故意让模型从一个错误的推理前缀开始继续生成答案。结果显示,错误的前缀越长,模型最终能够 “拨乱反正” 得到正确答案的概率就越低。这证明了 LLM 一旦陷入错误的思维定式,就很难自行跳出。

新范式:从「深度」到「广度」

原生并行思考(Native Parallel Thinking)的核心思想是,与其让模型在一条路径上「死磕」,不如让它同时探索多条不同思路的推理路径,最后再综合提炼出最优答案。

为此,研究团队推出了一个名为 ParaThinker 的端到端框架。该框架能够训练 LLM 在一个统一的前向传播过程中,并行生成多个多样化的推理路径,并将它们融合成一个更高质量的最终答案。

ParaThinker 的实现主要依靠三大核心创新:

  1. 专用可控 Token:引入一系列可训练的特殊 Token(如 ),用于显式引导模型开启第 i 条独立的思考路径,从而确保了推理路径的多样性。
  2. 思维特定位置嵌入:为了解决在汇总阶段多路径带来的位置信息混淆问题,ParaThinker 为每条推理路径设计了独特的、可学习的「思维嵌入」(Thought Embedding)。这让模型在最终综合时,能清晰地区分每个信息片段的来源,避免信息「串线」。
  3. 两阶段注意力掩码:在并行推理阶段,注意力被严格限制在各自的路径内部,确保各思路的独立性;在汇总阶段,则开放全局注意力,让模型可以审视所有路径并进行高效整合。

此外,一个关键的工程优势在于,ParaThinker 在汇总阶段能够重用并行推理过程中生成的 KV 缓存。这极大地节省了计算资源,避免了昂贵的重新计算(re-prefilling),使得整个过程的延迟开销极小。

超越 Majority Voting 与简单任务分解

并行推理并非一个全新的概念,类似「多数投票」(Majority Voting)的方法早已被用于提升模型在选择题或数值计算等任务上的表现。但这类方法的局限性也十分明显:它们依赖于可被轻易量化和验证的答案格式,而对于代码生成、数学证明、复杂智能体工作流等开放式、生成式的任务则束手无策。

ParaThinker 的优越性正在于此。它不是简单地对多个独立结果进行投票,而是学习如何智能地「整合」与「提炼」来自不同推理过程的信息。这使其成为一种更通用、更强大的并行推理框架,能够处理无法被简单投票的复杂任务,真正释放了并行思考的潜力。

在并行推理的探索道路上,除了 ParaThinker,近年来也涌现出其他值得关注的思路,例如以 Multiverse(https://arxiv.org/abs/2506.09991)为代表的工作,但其主要目标侧重效率:根据原文分析,这些方法的主要目标是加速生成过程,即让模型「做得快」,而不是直接致力于提升最终答案的准确性。

此外,其任务分解依赖任务结构:它们的成功很大程度上依赖于任务本身是否适合被显式地分解。对于许多不可分解的、需要整体性思维的复杂问题,这种方法的适用性便会受限。

相比之下,ParaThinker 提供了一种更具普适性的并行范式。它不假设任何子任务结构,也不试图对问题进行拆解。ParaThinker 的核心目标是通过思维的多样性来提升准确性。

实验结果:正确率随思维广度有效提升

在 AIME、AMC、MATH-500 等难度基准上,1.5B 参数模型用 8 条并行路径,平均准确率提升 12.3%;7B 模型提升 7.5%

延迟开销较低:推理延迟并不随着同时思维链数而线性增长,在 batch size=1 时,并行路径数增加了 8 倍,但延迟仅增加了约 10%,这体现了并行计算在硬件层面的巨大优势。

与多数投票(Majority Voting)的结合

ParaThinker 与 majority voting 策略(即生成 k 个独立答案,选择出现次数最多的那个)并不冲突,两者叠加可以达到更高的正确率。

ParaThinker 教会大模型像人类一样「头脑风暴」,并行探索多种思路,再整合成最优答案。它预示着未来 LLM 的规模化发展之路,将从单纯的「深度」扩展转向更有效的「广度」扩展。

相关内容

热门资讯

与石景山区人民政府签约!央广总... 12月23日,中央广播电视总台北京总站与北京市石景山区人民政府合作框架协议签约活动在京举行,总台超高...
以赛促学育英才 赋能智能产业新... (来源:天津日报) 转自:天津日报 近日,天津市2025年“海河工匠杯”技能大赛“服务机器人应用技...
原创 全... 前几天,有媒体报道称,在日本,“苹果税”(佣金)也降了,App内购调整至10-21%,同时放开了侧载...
亚马逊Alexa+重磅升级:让... 在科技日新月异的今天,亚马逊再次引领潮流,宣布其人工智能助手Alexa+将在2026年迎来重磅升级,...
快手遭“黄”袭,直播功能一度崩... 深圳商报首席记者 袁静娴 12月22日23时30分许,有多名用户在社交平台上爆料,快手直播频道内突然...
神奇“白帽子”,精准“打靶”失... 在位于松江区佘山智造园的全澜科技实验室内,创始人姜建指着一顶布满电极的白色帽子介绍:“传统失眠调控刺...
数智化为电炉炼钢点燃新引擎专题... -广告- 在钢铁行业转型升级的浪潮中,数字化与智能化技术的融入为传统电炉炼钢注入新的活力。通过先进的...
AI+算力协同创新 助力医疗大... 当前,AI医疗正深度融入临床与健康管理场景,医疗行业迎来了数智化发展新机遇。为进一步推动技术协同创新...
吉因加科技冲刺港股IPO 【深圳商报讯】(记者 钟国斌)港交所12月21日披露,吉因加科技(绍兴)股份有限公司(下称吉因加科技...
2026 AI 商业中场:从原... 来源:市场资讯 (来源:晚点LatePost) 文丨江思远 2000 年,美国互联网泡沫破灭时,G...
首都航空:用“数字翅膀”赋能旅... 自2021年12月8日加入辽宁方大集团以来,新海航首都航空四年来始终以党建为引领,以服务创新为动力,...
飞荣达:公司在液冷散热领域已展... 证券日报网讯 12月22日,飞荣达在互动平台回答投资者提问时表示,公司目前在服务器、终端设备领域研发...
快手被黑灰产攻击,黑灰产已全面... 12月22日晚,快手平台多个直播间出现色情、暴力等违规内容,快手一度关停直播。对此,快手方面回应称,...
慧研智投平台引领智能投顾时代为... 慧研智投平台通过应用最前沿的科技,致力于提供精准且个性化的投资方案,推动智能投顾业务的发展。该平台利...
户外无电无网视频汇聚平台Eas... 在视频监控领域,“没电没网”的场景一直是行业痛点。如果园、鱼塘、养殖场视频监控的实现面临着独特的挑战...
百利天恒朱义:原始创新打造超级... 来源:21世纪经济报道 21世纪经济报道记者 季媛媛 韩利明 肿瘤领域始终是医药创新的热土,PD-1...
一粒稻米,如何变身“黄金救命药... 新华社北京12月23日电 12月23日,《新华每日电讯》发表题为《一粒稻米,如何变身“黄金救命药”?...
英特尔Hammer Lake处... IT之家 12 月 23 日消息,YouTube 频道 RedGamingTech(RGT)昨日(1...
团队准备休假:Windows ... 快科技12月23日消息,随着圣诞与元旦双节临近,微软Windows Insider团队也正式开启了传...
联通在线取得基于语音识别的IP... 国家知识产权局信息显示,联通在线信息科技有限公司、联通视频科技有限公司取得一项名为“基于语音识别的I...