今天分享的是:人工智能行业DeepSeek开源Prover-V2强推理模型:递归强化学习提升数学能力
报告共计:10页
《人工智能行业DeepSeek开源Prover-V2强推理模型:递归强化学习提升数学能力》指出,4月30日DeepSeek在Hugging Face发布开源大语言模型DeepSeek-Prover-V2-671B,专为“数学AI推理”的形式化定理证明打造,在MiniF2F测试中通过率达88.9%,PutnamBench数据集解决49道题,AIME 24、25也获高分,实现业内最佳性能。该模型发布7B和671B两个版本,通过递归定理证明流程,实现自然语言推理与形式化验证闭环协同,融合人类可理解的思维链(CoT)与机器可执行的Lean4代码(Non-CoT),达成直觉思维与符号逻辑双向对齐。通过32k上下文强化学习轨迹迁移及Non-CoT/CoT数据混合蒸馏,团队将671B模型能力高效迁移至7B轻量模型,为边缘计算场景的高效形式化验证提供新思路。训练分两阶段,高效非思维链模式提升响应效率,高精度思维链模式结合强化学习优化策略。产业要闻方面,百度、Kimi、Qwen3等发布新模型,苹果、荣耀在智能设备应用AI技术,特斯拉启动Robotaxi业务测试。相关公司涉及GPU、FPGA、SoC、自然语言处理等领域。
以下为报告节选内容