可以让一个模型同时具备“深度推理”和“优质推理链路筛选”的能力吗?
问小白的答案是:可以。
今天,问小白研发团队要跟大家分享一个新模型:元石反思型生成式模型(Reflective Generative Model),简称 MetaStone-S1。我们将该模型与 OpenAI o3-mini 模型进行了性能对比,以此验证我们算法的先进性。
MetaStone-S1 通过元石科技提出的反思型生成范式训练得到,该技术亮点主要包括:
想特别说明的是,MetaStone-S1 的论文、代码、模型权重已全部开源。
论文地址:https://arxiv.org/abs/2507.01951
Github(训练数据、训练&评估代码):https://github.com/MetaStone-AI/MetaStone-S1
Hugging Face(模型):https://huggingface.co/MetaStoneTec/MetaStone-S1-32B
ModelScope(训练数据、训练&评估代码):https://www.modelscope.cn/models/MetaStoneTec/MetaStone-S1-32B
我们选择了包括考验模型数学推理能力的高难度“全美数学竞赛”「AIME 24、25」 和考验模型代码能力的权威测试基准「LiveCodeBench」,对于中文推理任务,我们选择了中文科学问答测试基准「C-EVAL」。所有数据集均以 Pass@1,并测试 64 次取平均作为最终评测精度。
图1 MetaStone-S1 与 OpenAI o3-mini 在 Low 和 Medium 模式下的性能对比
图2 MetaStone-S1 与 OpenAI o3-mini 在 high 模式下的性能对比
图3 思考长度的 Scaling Law
图4:MetaStone-S1 与 DeepSeek R1 的思考长度对比
图5 MetaStone-S1 与 DeepSeek-R1-671B 在 AIME24 上的性能对比
图6 MetaStone-S1 的整体框架
在训练阶段,我们使用联合损失同时优化策略模型和 SPRM,其中策略模型使用通用强化学习方法直接优化(如 GRPO),SPRM 则使用我们提出的 SPR loss 进行自监督优化,整体损失函数如下所示:
图7 MetaStone-S1 的推理框架
基于上述方法,我们提出了专注于推理能力优化的推理模型——MetaStone-S1;在推理阶段,通过 Rollout 调整模型生成的候选思考过程数量,我们设置了三种推理模式 MetaStone-S1-high(候选思考过程数量=32)、medium(候选思考过程数量=8)、low(候选思考过程数量=2)以实现更全面的思考或更好地平衡计算成本,从而灵活适应不同场景的推理需求。
本章节重点分享一下反思型生成范式中过程评分的可视化。
1.过程评分的可视化
下图为模型对推理过程打分的可视化结果,每个步骤基于“.\n\n”符号分隔,并通过 SPRM 进行过程评分。
图8 SPRM 过程评分可视化(展示了部分关键 Step,虚线框为 SPRM 的输出,实线框为策略模型输出)
可以看到 SPRM 能够正确检测出策略模型低质推理过程,包括低质逻辑(如图 8 左侧 step58 中对 b 的逻辑错误)、低质计算过程(如图 8 右侧 step32 中的 9 * 21 + 7 = 193 的计算错误),并在对应步骤给出低分。由于 SPRM 只输出过程评分,我们在虚线框内进一步加入了后验描述(Post-description)。
2.反思型生成范式的“Aha Moment”
上述低质推理过程判断能力是如何出现的?
我们观察到了反思型生成范式在训练过程中的“Aha Moment”,即对低质推理过程判断能力的涌现。如图 9 所示,SPRM 在训练初期,倾向对大部分推理步骤均学习打出高分,而在训练中间的某一时刻后,SPRM能够显著性地区分低质量的推理步骤,从而降低负样本的过程评分趋势。
图9 反思型生成范式评分结果优化曲线
进一步,我们将 aha moment 前后对低质推理过程的评分情况进行了可视化。如图 10 所示,在 aha moment 前后,SPRM 的能力涌现能精准判断等式化简过程中的计算错误,从而给当前步骤较低的评分。
图10 “Aha Moment”前后 SPRM 打分对比
我们提出的自反思型生成范式以 26M 的超低参数量超过了 72B 的独立奖励模型。特别地,对于 MetaStone-S1-32B,其 SPRM 参数量也仅为 53M,远小于 72B 的独立 PRM 模型。
目前,我们已经开源了 MetaStone-S1 系列模型,包含了 1.5B 、7B、 32B 三个尺度,希望能够为推理模型的进阶带来一条新的思路。
问小白成立的宗旨是:以最可及的方式,让先进的 AI 技术服务于最广泛的人群。未来,我们将持续推出更轻量且高效的推理模型,并以开放、共享的姿态,与开发者社区携手共建通用智能的下一个里程碑。
——
新技术,新算法。