阿里千问最强推理模型问世:采用全新测试时扩展机制,性能比肩GPT-5.2
创始人
2026-01-27 14:24:15
0

阿里正式发布千问最强AI(人工智能)模型。

1月26日晚间,阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍,该模型创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新:自适应工具调用能力和测试时扩展技术(Test-Time Scaling)。

从参数来看,千问新模型总参数超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。

此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。

在多项关键性能基准测试中,千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。

千问在多项关键性能基准测试中的表现。阿里云

据介绍,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

此外,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供和专业人士一样水平的回答。同时,模型幻觉也大为降低。

目前,普通用户可以通过千问PC端和网页端试用模型,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。据了解,千问APP也即将接入新模型,所有用户都可免费体验。

阿里Qwen大模型的研发始于2022年,已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月,是通义千问家族中最大、最强的基础模型。

26日当天,阿里巴巴美股(NYSE:BABA)跌1.07%收于每股171.38美元,总市值4091亿美元;港股(9988.HK)27日盘前涨超2%。

澎湃新闻记者 胡含嫣

相关内容

热门资讯

从AI训练师、AI产品经理,到... ⇧点蓝色字关注 “网信湖北” 从AI训练师、AI产品经理、AI伦理审核员等新职业涌现,到“一人公司”...
小米REDMI Turbo 5... 1月26日消息,型号为2511FRT34C的小米新机近日现身GeekBench跑分库,引发关注。该机...
北京首个AI教育实训落地,摩尔... 1月27日,北京青年报记者从摩尔线程了解到,摩尔线程与北京市十一学校战略合作的“AI教育实训基地”已...
途锐液压取得柱塞泵密封装置专利... 国家知识产权局信息显示,合肥途锐液压有限责任公司取得一项名为“一种柱塞泵密封装置和柱塞泵”的专利,授...
李彦宏接受《时代》专访:AGI... 李彦宏 北京时间1月27日,百度CEO李彦宏接受了美国《时代》杂志的专访,谈到了百度在AI领域的发展...
资源库完成升级开启公测 天津图... 古籍是民族记忆的活化石,是历史文脉的“基因库”,承载着文明薪火,更是滋养当代精神的源头活水。近日,天...
苹果向开发者推送iOS 26.... 【CNMO科技消息】近日,苹果公司面向开发者推送了iOS 26.3、iPadOS 26.3、watc...
跨本体视触觉多模态数据集发布 ... 据央视新闻报道,1月26日,国家地方共建人形机器人创新中心联合相关研究团队发布“白虎-VTouch”...
长久佩戴不累耳?2026舒适度... 2026年,舒适已成为选择耳机的首要标准。开放式耳机凭借不侵入耳道的设计,解决了长久佩戴的胀痛与闷热...
2026年TOP10大模型机器... "我们公司用AI机器人后,电销成本直降60%,新人成单周期缩短一半!"上周在合肥参加行业峰会,遇到某...
一根细丝的革新:如何定义中国光... 一根细丝的革新:如何定义中国光伏的核心厚度 在青海或新疆的戈壁上,成片的光伏板像安静的士兵,在日光下...
阿里云AI火花大会:AI加速从... 1月15日,阿里云 AI 创新应用火花大会(上海)圆满落幕。峰会现场汇聚超千家聚焦 AI 应用落地的...
又一领域达最高纪录,我国成功研... 近日,由中国科学院电工研究所和物理研究所联合攻关研制而成的全超导用户磁体,成功实现了中心磁场达到35...
AI玩具大狂欢,大厂生态的“爆... 文 | 零态LT,作者|林飞雪,编辑|胡展嘉 河北容城县的玩具厂里,如今最忙的不是缝纫工,而是调试...
相当于地磁场的70多万倍!我国... 科技日报记者 陆成宽 记者27日从中国科学院获悉,依托国家重大科技基础设施“综合极端条件实验装置”,...
一项软件服务,大幅降低企业停产... 2025年,服务业增加值同比增长5.4%。其中,信息传输、软件和信息技术服务业增加值同比增长11.1...
我国成功研制,创世界纪录! 据新华社,记者1月27日从中国科学院获悉,我国科研团队依托国家重大科技基础设施——综合极端条件实验装...
学生党闭眼入:2K-3K档大电... 在手机能换电池的年代,只要买了手机,基本上还会再买1~2个备用电池,还要配个万 能充,那时候,飞毛腿...
千问被发射“上天”!全球首次实... 在2026年1月26日由中国信通院组织的“星算·智联”太空算力研讨会上,国星宇航执行副总裁王亚波披露...
阿里千问最强推理模型问世:采用... 阿里正式发布千问最强AI(人工智能)模型。 1月26日晚间,阿里正式发布预告已久的千问旗舰推理模型Q...