强化学习新范式!元石提出“反思生成范式”性能对标OpenAI o3-mini
创始人
2025-07-09 17:21:41
0

可以让一个模型同时具备“深度推理”和“优质推理链路筛选”的能力吗?

问小白的答案是:可以。

今天,问小白研发团队要跟大家分享一个新模型:元石反思型生成式模型(Reflective Generative Model),简称 MetaStone-S1。我们将该模型与 OpenAI o3-mini 模型进行了性能对比,以此验证我们算法的先进性。

MetaStone-S1 通过元石科技提出的反思型生成范式训练得到,该技术亮点主要包括:

  • 业界首次实现“Long-CoT 强化学习”和“过程评分学习”融合的范式:该范式能够让一个模型同时具备“深度推理”和“优质推理链路筛选”的能力。通过共享过程评分和策略模型的主干网络,该范式仅引入了 53M 的过程评分模型参数量。进一步地,基于 Task-specific Head 的并行预测,能够实现又快又好的文本回答效果。
  • 不需要额外的过程监督标注:使用结果奖励标签监督过程评分模型,并提出基于自监督损失函数的端到端训练方法。
  • 揭示了反思型生成范式的 Aha Moment、 Scaling Law:将大模型像人一样筛选优质推理过程的流程可视化,并展示新范式下大模型的智能涌现;通过拟合 1.5B~32B 的推理曲线,量化思考长度和模型性能对应的关系。

想特别说明的是,MetaStone-S1 的论文、代码、模型权重已全部开源。

论文地址:https://arxiv.org/abs/2507.01951

Github(训练数据、训练&评估代码):https://github.com/MetaStone-AI/MetaStone-S1

Hugging Face(模型):https://huggingface.co/MetaStoneTec/MetaStone-S1-32B

ModelScope(训练数据、训练&评估代码):https://www.modelscope.cn/models/MetaStoneTec/MetaStone-S1-32B

与 OpenAI o3-mini 的性能对比

我们选择了包括考验模型数学推理能力的高难度“全美数学竞赛”「AIME 24、25」 和考验模型代码能力的权威测试基准「LiveCodeBench」,对于中文推理任务,我们选择了中文科学问答测试基准「C-EVAL」。所有数据集均以 Pass@1,并测试 64 次取平均作为最终评测精度。

  • 在 low/medium 推理模式下,其对比结果如图 1 所示,我们提出的 MetaStone-S1-32B-low 性能全面超过 OpenAI o3-mini-low并且在 medium 模式下达到了与 OpenAI o3-mini-medium 相近的水平。

图1 MetaStone-S1 与 OpenAI o3-mini 在 Low 和 Medium 模式下的性能对比

  • 在 high 推理模式下,其对比结果如图 2 所示,MetaStone-S1-32B-high 在中文推理任务上超过了 OpenAI o3-mini-high,而在数学、代码任务上与其相比还有一定差距。这部分差距是由于本次采用较早期的基座模型(QwQ-32B)导致的,在后续算法迭代中,我们会逐步开源自研基座来进一步提升该算法的性能上限。

图2 MetaStone-S1 与 OpenAI o3-mini 在 high 模式下的性能对比

思考长度的 Scaling Law

图3 思考长度的 Scaling Law

  • 思考更长:MetaStone-S1 具备业内最长思考长度,显著领先 Deepseek R1-671B-0120(与 QwQ-32B 同期发布的模型)。MetaStone-S1-low 旨在快速思考并回答用户问题;MetaStone-S1-medium 在思考长度和精度之间找到了一种平衡;MetaStone-S1-high 大幅探索了模型思考长度的上限,以获得更高的智能版本。

图4:MetaStone-S1 与 DeepSeek R1 的思考长度对比

  • 性能更高:图 5 展示了 MetaStone-S1-32B 与 DeepSeek-R1-671B 的性能对比,我们在全美数学竞赛 AIME24 上,以 32B 的参数超过了 671B 模型的性能

图5 MetaStone-S1 与 DeepSeek-R1-671B 在 AIME24 上的性能对比

  • 成本更低:MetaStone-S1 相较 OpenAI o3-mini 和 Deepseek R1 具有更低的推理成本。

技术细节

  • 反思型生成范式:我们提出了一种将推理与过程评分统一的反思型生成范式。具体地说,将策略模型(policy model)与过程奖励模型(Self-supervised Process Reward Model,SPRM)共享同一个骨干网络,并在其上设计两个预测头,分别用于生成解答与对解答过程的自我评估(过程反思)。
  • 如图 6 所示,该范式一方面支持模型在生成过程中实时进行自我反馈与 on-policy 优化,促进推理质量提升;另一方面仅依赖单一模型即可同时完成推理与过程评估,避免了对外部奖励模型的额外依赖,实现高效的一体化自监督学习。

图6 MetaStone-S1 的整体框架

在训练阶段,我们使用联合损失同时优化策略模型和 SPRM,其中策略模型使用通用强化学习方法直接优化(如 GRPO),SPRM 则使用我们提出的 SPR loss 进行自监督优化,整体损失函数如下所示:

图7 MetaStone-S1 的推理框架

基于上述方法,我们提出了专注于推理能力优化的推理模型——MetaStone-S1;在推理阶段,通过 Rollout 调整模型生成的候选思考过程数量,我们设置了三种推理模式 MetaStone-S1-high(候选思考过程数量=32)、medium(候选思考过程数量=8)、low(候选思考过程数量=2)以实现更全面的思考或更好地平衡计算成本,从而灵活适应不同场景的推理需求。

反思型生成范式的 Aha Moment

本章节重点分享一下反思型生成范式中过程评分的可视化。

1.过程评分的可视化

下图为模型对推理过程打分的可视化结果,每个步骤基于“.\n\n”符号分隔,并通过 SPRM 进行过程评分。

图8 SPRM 过程评分可视化(展示了部分关键 Step,虚线框为 SPRM 的输出,实线框为策略模型输出)

可以看到 SPRM 能够正确检测出策略模型低质推理过程,包括低质逻辑(如图 8 左侧 step58 中对 b 的逻辑错误)、低质计算过程(如图 8 右侧 step32 中的 9 * 21 + 7 = 193 的计算错误),并在对应步骤给出低分。由于 SPRM 只输出过程评分,我们在虚线框内进一步加入了后验描述(Post-description)。

2.反思型生成范式的“Aha Moment”

上述低质推理过程判断能力是如何出现的?

我们观察到了反思型生成范式在训练过程中的“Aha Moment”,即对低质推理过程判断能力的涌现。如图 9 所示,SPRM 在训练初期,倾向对大部分推理步骤均学习打出高分,而在训练中间的某一时刻后,SPRM能够显著性地区分低质量的推理步骤,从而降低负样本的过程评分趋势。

图9 反思型生成范式评分结果优化曲线

进一步,我们将 aha moment 前后对低质推理过程的评分情况进行了可视化。如图 10 所示,在 aha moment 前后,SPRM 的能力涌现能精准判断等式化简过程中的计算错误,从而给当前步骤较低的评分。

图10 “Aha Moment”前后 SPRM 打分对比

对比常规奖励模型

我们提出的自反思型生成范式以 26M 的超低参数量超过了 72B 的独立奖励模型。特别地,对于 MetaStone-S1-32B,其 SPRM 参数量也仅为 53M,远小于 72B 的独立 PRM 模型。

模型开源

目前,我们已经开源了 MetaStone-S1 系列模型,包含了 1.5B 、7B、 32B 三个尺度,希望能够为推理模型的进阶带来一条新的思路。

问小白成立的宗旨是:以最可及的方式,让先进的 AI 技术服务于最广泛的人群。未来,我们将持续推出更轻量且高效的推理模型,并以开放、共享的姿态,与开发者社区携手共建通用智能的下一个里程碑。

——

新技术,新算法。

相关内容

热门资讯

“TO FUTURE 未来重构... 深圳商报•读创客户端首席记者 魏沛娜 近日,由深圳市南山区桃源街道办事处、大学城运营管理筹备工作组主...
300余件展品汇聚国博 全景呈... 12月29日,北京青年报记者从中国国家博物馆了解到,《筑基强国路——中国制造“十四五”成就展》将于1...
麦捷微电子申请避开气隙的变压器... 国家知识产权局信息显示,深圳市麦捷微电子科技股份有限公司申请一项名为“一种避开气隙的变压器”的专利,...
小米申请设备温度检测方法及装置... 国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“设备温度检测方法及装置”的专利,公开号...
市属国有企业“AI+”场景开放... 12月26日,市国资委、市发改委、市经信局联合举办“数智国资・场景赋能——市属国有企业‘AI+’场景...
世界机器人大赛FTF青少年无人... 中国教育报-中国教育新闻网讯(记者 龙超凡 熊杰 通讯员 王帅)近日,被誉为机器人界“奥林匹克”的世...
荣耀Power2官宣1月5日发... IT之家 12 月 29 日消息,今日,荣耀官宣 Power2 将于 2026 年 1 月 5 日新...
命运最坎坷的国产单机,预告片播... 这种经历和情怀,在整个中国游戏行业内,恐怕都是难以复现的。 文/九莲宝灯 今天上午,《仙剑奇侠传四》...
“2025未来产业系列对接活动... 近日,“2025未来产业系列对接活动(陕西行)”在西安成功举办。本次活动由陕西省工业和信息化厅、中国...
沃新智创取得新型气泵专利,提高... 国家知识产权局信息显示,深圳沃新智创技术有限公司取得一项名为“一种新型气泵”的专利,授权公告号CN2...
娄杰出席人工智能驱动的社会科学... 12月27日,人工智能驱动的社会科学研究(AI4SS)研讨会在河西区召开。南开大学原校长、世界工程组...
联想天禧AI闪耀吴晓波科技人文... AI的曙光划破时代苍穹,人类正伫立在生产力革新与交互体验重构的十字路口,迫切追寻能驾驭未来生活的密钥...
资阳市科协“科服保姆”精准搭桥... 为精准对接科技工作者需求,推动产学研用深度融合,近日,在资阳市科协“科服保姆”的陪同下,资阳口腔职业...
泰安联通:以考促练砺精兵,筑牢... 近日,泰安联通成功举办接入网固网专业高技能人才实操考试。以“匠心锤炼铸精兵,实战砺剑保畅通”为核心,...
专家把脉深井观测 助力常德地震... 近日,中国地震局地球物理研究所专家团队赴常德市地震局,围绕深井野外科研站建设、运行与科研合作开展深入...
人工智能助数字乡村升级 加快推动数字乡村建设是顺应技术变革趋势、重塑乡村发展格局的战略选择。当前,我国已建成覆盖城乡的数字基...
青岛华青教育集团:构建校本大模... 12月29日,“学习强国”平台以《青岛华青教育集团:构建校本大模型,重塑教育新生态》为题,报道华青教...
“中国之光”宇树机器人的演示视... 刷到特斯拉Cybertruck首席工程师发的宇树G1测试视频,我直接笑出声音。本来是机器人跟工程师同...
来自奥尔特曼的请求:飞机引擎爆... 人工智能(AI)数据中心接入电网时间过长,这个问题怎么破? 近期的一系列动态显示,数据中心开发商正转...
苏州策马机电取得梯度线圈固化补... 国家知识产权局信息显示,苏州策马机电科技有限公司取得一项名为“一种梯度线圈固化补胶桶”的专利,授权公...