微软重磅发布Phi-4推理模型,小型AI挑战大模型霸主
创始人
2025-05-01 22:41:04
0

IT之家 5 月 1 日消息,微软昨日(4 月 30 日)发布 Phi-4-reasoning 系列推理模型,通过监督微调 Phi-4,并利用 o3-mini 生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计。

IT之家援引博文介绍,微软本次共推出 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 三款模型,官方称该系列模型不仅延续了小型模型的高效特性,还在推理能力上实现重大突破。

该系列模型通过推理时间扩展(inference-time scaling)技术,擅长处理需要多步骤分解和内部反思的复杂任务,尤其在数学推理和代理型应用中表现突出,具备媲美大型前沿模型的潜力。

Phi-4-reasoning 是一款拥有 140 亿参数的开源推理模型,通过监督微调(Supervised Fine-Tuning,SFT)Phi-4,结合 OpenAI o3-mini 的高质量推理演示数据,并充分利用额外计算资源,生成详细的推理链条。

Phi-4-reasoning-plus 增强版通过强化学习(Reinforcement Learning,RL)进一步提升性能,tokens 用量比标准版多 1.5 倍,支持更高精度。

两款模型在数学推理和博士级科学问题测试中,均超越 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,甚至在 AIME 2025(美国数学奥林匹克资格赛)中击败 6710 亿参数的 DeepSeek-R1 满血模型。

Phi-4-mini-reasoning 专为计算资源有限的环境设计,是一款基于 Transformer 的紧凑型语言模型,优化用于数学推理。

该模型通过 DeepSeek-R1 生成的合成数据微调,能在低延迟场景下提供高质量的逐步问题解决方案。这款模型覆盖从中学到博士级的百万级多样化数学问题,非常适合教育应用、嵌入式辅导和边缘设备部署。

在多项数学基准测试中,其 3.8 亿参数的表现超越 OpenThinker-7B 和 Llama-3.2-3B-instruct 等更大模型,甚至在部分测试中接近 OpenAI o1-mini 的水平。

相关内容

热门资讯

【维护公告】12月17日维护公... 亲爱的少侠: 为保证服务器的稳定和提升游戏品质,天龙八部手游全区全服将于12月17日4:00~11...
华为应用市场编辑推荐上新,四款... 华为终端云服务官方微博近日发布新一期编辑推荐主题,为用户带来四款新鲜应用。本期推荐包含提升专注力的工...
原创 英... 大家好我是指尖,英雄共创升级,是很多英雄重生的绝佳机会,目前王者荣耀共有16名英雄进入了投票池,均有...
从被动应对到主动防控 中国电信... (记者 叶菁)今年初,西藏日喀则突发强震,道路中断,通信基站损毁。危难之际,中国电信“天通一号”卫星...
影石大疆「互偷」进入下半场 最近一周,影石CEO刘靖康的活动轨迹,几乎都围绕着一台无人机展开。 本月初,他站在新子品牌“影翎”发...
仓颉造字IP展圆满闭幕:文化I... 来源:滚动播报 (来源:上观新闻) 《左眼时间右眼空间·仓颉造字与宇宙文脉》主题展日前在上海世博文...
确定!二三类医疗器械一般纳税人... 在医疗器械行业,二三类医疗器械企业作为技术密集型与资金密集型企业的代表,虽凭借高附加值产品占据市场优...
Facebook操作全攻略:从... 在海外社交平台中,Facebook依然是覆盖人群广、应用场景多的核心平台之一。 无论是做内容运营、品...
大模型如何影响国际传播?这场研... 近日,首届“智能与国际传播”学术会议在广州举行,开幕式设在暨南大学番禺校区智媒体大厅。大会以“国际传...
荣耀WIN系列新机本月登场,主... IT之家 12 月 16 日消息,2025 年 12 月 16 日,荣耀召开媒体沟通会,正式宣布旗下...
WER 2025世锦赛暨能力风... 2025年12月13日,世界教育机器人大赛(WER)2025赛季世界锦标赛暨能力风暴世界教育机器人高...
与Netflix唱反调,苹果A... IT之家 12 月 16 日消息,据外媒 CNET 昨天报道,苹果现已更新安卓版 Apple TV ...
陕西智能制造水平居西部前列 12月12日,据陕西省智能制造现场会暨“智能制造进园区”专项活动上消息:随着人工智能和大数据等新技术...
王江平详解如何破除AI科学发现... 中新网北京12月16日电 (记者 刘文文)中国新闻社16日在北京主办以“新格局·新动能”为主题的“国...
谷歌+社媒“穷寇”打法,获客成... 谷歌+社媒“穷寇”打法,获客成本直降60% 哈喽各位外贸战友,我是悉知科技的小悉。 我太懂咱们初创...
扫地机器人制造商iRobot申... 来源:环球市场播报 在成立35年后,扫地机器人Roomba的制造商iRobot于周日深夜申请破产保护...
从创投“耐心”到资本“接力”:... 来源:21世纪经济报道 南方财经记者 翁榕涛 广州报道 近日,2025年粤港澳大湾区人工智能与机...
3D打印“重塑”老味道,方寸尺... 潮新闻客户端 通讯员 夏现伟 记者 邱伊娜 凌晨四点的海盐,夜色尚未褪去,湿润的空气中透着微凉。但在...
喜报!中交中南局两项成果入选中... 近日,2025年度中国公路学会科学技术奖评审结果正式揭晓,中交中南局参与完成的两项技术成果凭借突出创...
成武县:科技创新培育爆款“绿色... 在绿色低碳高质量发展的道路上,成武县各企业正以科技创新为引擎,不断培育新产品、拓展新市场。位于成武县...