计算机|Grok 4:推理能力跃升,期待多模态升级
创始人
2025-07-13 02:01:36
0

文|杨泽原 丁奇 马庆刘

Grok 4专业学科和复杂任务上的推理能力突出,展现未来模型在长流程专业工作上的应用潜力,支持Agent落地高价值场景,结合后续多模态能力有望突破打开全新应用场景,行业落地对应带动AI Infra和算力需求,建议关注相关领域重点公司的投资机会。

▍事项:Grok 4正式发布并开放使用。

北京时间7月10日,XAI发布新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy两个版本,在专业学科任务推理上性能提升。模型B端API定价输入3美元/百万Tokens,输出15美元/百万Tokens,较o3大约贵50%。C端30美元/月的订阅会员即可使用Grok 4,高推理算力投入的Grok-4 Heavy版本则需要300美元/月的会员费用才可以使用。

▍重点升级专业学科和复杂任务的推理能力。

Grok 4在专业学科和商业环境推理等复杂任务中表现大幅超越此前最佳(SOTA)的模型,在知识能力上已经超越本科生和研究生水平,正在全领域快速缩小与人类顶级专家的差距。

1)HLE:在各学科专家编写的高难度学术测试集Humanity's Last Exam(HLE)测试集中,Grok-4在不使用工具的情况下正确率为26.9%,使用工具的情况下为41.0%,在推理阶段加大RL算力投入后可进一步提升到50.7%,较此前的SOTA模型21.6%的水平翻倍增长。

2)Vending-Bench:在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok-4得分是第二名Claude Opus 4的两倍,模型正朝着解决真实复杂问题的方向迈进。

3)其他:在GPQA、AIME25、HMMT 25、USAMO 25等专业学科知识测试集上,Grok 4 Heavy在其中4项夺冠,尤其在 AIME25与HMMT25 分别获得100% /96.7%的接近满分表现。

▍推理能力发展带动算力需求,技术创新为后续模型推理提效带来新思路。

训练侧,Grok 4较Grok 2训练量提升了100倍,较Grok-3在后训练强化学习上的计算量提升10倍。推理侧,和OpenAI o3-high相似,Grok 4 Heavy通过提高强化学习的算力投入提升模型效果,验证Test time computing的有效性。以强化学习为基础的推理能力在训推两端同步带动算力投入提升,并且根据ARC-AGI v2测试结果显示,Grok 4推理性价比(单位成本下的推理效率)显著高于此前所有模型。技术方面,本次Grok 4的工程创新包括两点:1)验证工具使用能力对推理性能的重要价值,通过在预训练阶段让模型学习使用工具,模型推理场景实际表现大幅提升;2)在后训练强化学习中找到了可靠的奖励信号方案。Grok 4的创新体现了推理能力依然是产业焦点和未来方向,工程探索为后续模型推理能力升级提供新的思路。

▍更新对话灵活、情感细腻的语音交互,多模态是后续更新计划的重点。

Grok 4发布新语音助手Eve,对话延迟降低一半,每日用户使用时长提升10倍。在现场演示中,新语音助手的对话音色、音调、语气与真人高度相似,具备模仿耳语或者演唱现编歌曲的功能。同时现场也展示了Grok-4在游戏开发领域的潜力,游戏设计师在4小时内利用AI制作出一个简单的第一人称射击游戏,发布会上马斯克提出明年有望出现首款AI游戏和首部AI电影。Grok 4当前在视觉领域的理解和生成能力仍然不足,根据马斯克发言,相关功能预计在数周到数月内的下个小版本上做重点改进。后续XAI计划在8月发布代码模型,9月发布多模态智能体,10月发布视频生成模型。

▍风险因素:

AI核心技术发展不及预期,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧,地缘政治风险。

▍投资策略。

Grok 4在专业学科和复杂任务上的推理能力突出,展现未来模型在长流程专业工作上的应用潜力,支持Agent落地高价值场景,结合后续多模态能力有望突破打开全新应用场景,行业落地对应带动AI Infra和算力需求,建议关注相关领域重点公司的投资机会,综合梳理以下投资主线:1)主线一:通用管理软件; 2)主线二:工具软件和其他重点行业软件;3)主线三:AI基础设施。

来源:中信证券研究

相关内容

热门资讯

“韧性生长”成为2025年中国... 中新网上海12月29日电(杨海燕 李秋莹)2025年,在高速流动的时代语境中,不确定性成为常态。当代...
山东枣庄:文化消费有了新场景 走进山东省枣庄市薛城区的一家文旅田园,草莓果汁、草莓果酱、草莓甜品等草莓衍生制品种类多样,传统非遗体...
GEO优化服务哪家强?评测榜单... 当AI搜索正在重塑内容分发的逻辑,你的网站和自媒体内容是否还能被精准推荐?在生成式AI(如豆包、De...
接入人脑,正在中国悄悄爆发 校对 | 朝乾 夏虫 编辑 | 桐 前几天,马斯克抛出一个极具争议的预测:人类能在20年内将意识数字...
盛视科技:以存算一体架构,定义... 在 550 亿美元规模的全球机器人产业赛道上,技术迭代正成为企业突围的核心密码。传统机器人 “存储 ...
数字金融是新基建的重要引擎 当前,新一代技术革命与产业变革交织,新型基础设施建设(以下简称“新基建”)是构筑数字时代竞争新优势的...
「原神☆FES 」2026正式... 大家好,欢迎收看未来热点全知道的“热点预告”。 在这里你将能看到未来一周游戏圈的各项动态,本周我们将...
原创 《... 在《铃兰之剑为这和平的世界》这款游戏中,这位角色“特莉丝”是一位传奇女术士,许多玩家都不了解要怎么帮...
第42次南极考察丨“雪龙”号抵... 执行中国第42次南极考察任务的“雪龙”号极地科考破冰船于北京时间29日顺利抵达秦岭站海域,并开展卸货...
河南新野召开植保无人机新技术及... 12月28日,河南省南阳市新野县召开植保无人机新技术及操作规范培训会。全县部分无人机飞防组织负责人及...
绿色低碳发展取得新成效 来源:经济日报 近日,记者在天津市西青区110千伏雄年一二线电缆改造现场看到,第四代高压电缆接头自动...
郎慕电子取得螺丝与螺丝起子组合... 国家知识产权局信息显示,深圳市郎慕电子科技有限公司取得一项名为“一种螺丝、螺丝起子以及螺丝与螺丝起子...
吴晓波探访东鹏重庆基地,解码“... “当工厂学会‘思考’,真正的变革才刚刚开始。” 2025年12月28日,《AI 闪耀中国・2025 ...
原创 大... 大话西游手游能搬砖吗?二〇二六交易大服12月30日开服,预约人数逼近200万,竟然还有人不知道,大话...
重大突破!成功首飞,创造新纪录 ◎ 科技日报记者 孙瑜 记者从中国航发获悉,12月28日,中国航发自主研制的AES100发动机双发配...
福州“电竞+文旅”收官战:源能... 在岁末之际,一场电竞盛宴于福州盛大开启,为《无畏契约》(VALORANT)的玩家们带来了一场视觉与激...
无畏契约年终派对:一站式体验国... 在岁末之际,一场电竞盛宴在福州盛大上演,为《无畏契约》(VALORANT)的玩家们带来了一场视觉与激...
瑞典游戏开发商占据Steam平... IT之家 12 月 29 日消息,数据分析公司 Alinea Analytics 发布 2025 年...
《仙剑奇侠传四:重制版》采用回... 近日,《仙剑奇侠传四 重制版》首个实机预告正式公开,视频中确认本作战斗系统将回归经典回合制,并在传统...
2025华为智能手表大盘点:新... 时光荏苒,一眨眼就来到了年底,马上又要迎来春节,而在科技与生活深度融合的当下,一款兼具外观颜值、健康...