计算机|Grok 4:推理能力跃升,期待多模态升级
创始人
2025-07-13 02:01:36
0

文|杨泽原 丁奇 马庆刘

Grok 4专业学科和复杂任务上的推理能力突出,展现未来模型在长流程专业工作上的应用潜力,支持Agent落地高价值场景,结合后续多模态能力有望突破打开全新应用场景,行业落地对应带动AI Infra和算力需求,建议关注相关领域重点公司的投资机会。

▍事项:Grok 4正式发布并开放使用。

北京时间7月10日,XAI发布新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy两个版本,在专业学科任务推理上性能提升。模型B端API定价输入3美元/百万Tokens,输出15美元/百万Tokens,较o3大约贵50%。C端30美元/月的订阅会员即可使用Grok 4,高推理算力投入的Grok-4 Heavy版本则需要300美元/月的会员费用才可以使用。

▍重点升级专业学科和复杂任务的推理能力。

Grok 4在专业学科和商业环境推理等复杂任务中表现大幅超越此前最佳(SOTA)的模型,在知识能力上已经超越本科生和研究生水平,正在全领域快速缩小与人类顶级专家的差距。

1)HLE:在各学科专家编写的高难度学术测试集Humanity's Last Exam(HLE)测试集中,Grok-4在不使用工具的情况下正确率为26.9%,使用工具的情况下为41.0%,在推理阶段加大RL算力投入后可进一步提升到50.7%,较此前的SOTA模型21.6%的水平翻倍增长。

2)Vending-Bench:在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok-4得分是第二名Claude Opus 4的两倍,模型正朝着解决真实复杂问题的方向迈进。

3)其他:在GPQA、AIME25、HMMT 25、USAMO 25等专业学科知识测试集上,Grok 4 Heavy在其中4项夺冠,尤其在 AIME25与HMMT25 分别获得100% /96.7%的接近满分表现。

▍推理能力发展带动算力需求,技术创新为后续模型推理提效带来新思路。

训练侧,Grok 4较Grok 2训练量提升了100倍,较Grok-3在后训练强化学习上的计算量提升10倍。推理侧,和OpenAI o3-high相似,Grok 4 Heavy通过提高强化学习的算力投入提升模型效果,验证Test time computing的有效性。以强化学习为基础的推理能力在训推两端同步带动算力投入提升,并且根据ARC-AGI v2测试结果显示,Grok 4推理性价比(单位成本下的推理效率)显著高于此前所有模型。技术方面,本次Grok 4的工程创新包括两点:1)验证工具使用能力对推理性能的重要价值,通过在预训练阶段让模型学习使用工具,模型推理场景实际表现大幅提升;2)在后训练强化学习中找到了可靠的奖励信号方案。Grok 4的创新体现了推理能力依然是产业焦点和未来方向,工程探索为后续模型推理能力升级提供新的思路。

▍更新对话灵活、情感细腻的语音交互,多模态是后续更新计划的重点。

Grok 4发布新语音助手Eve,对话延迟降低一半,每日用户使用时长提升10倍。在现场演示中,新语音助手的对话音色、音调、语气与真人高度相似,具备模仿耳语或者演唱现编歌曲的功能。同时现场也展示了Grok-4在游戏开发领域的潜力,游戏设计师在4小时内利用AI制作出一个简单的第一人称射击游戏,发布会上马斯克提出明年有望出现首款AI游戏和首部AI电影。Grok 4当前在视觉领域的理解和生成能力仍然不足,根据马斯克发言,相关功能预计在数周到数月内的下个小版本上做重点改进。后续XAI计划在8月发布代码模型,9月发布多模态智能体,10月发布视频生成模型。

▍风险因素:

AI核心技术发展不及预期,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧,地缘政治风险。

▍投资策略。

Grok 4在专业学科和复杂任务上的推理能力突出,展现未来模型在长流程专业工作上的应用潜力,支持Agent落地高价值场景,结合后续多模态能力有望突破打开全新应用场景,行业落地对应带动AI Infra和算力需求,建议关注相关领域重点公司的投资机会,综合梳理以下投资主线:1)主线一:通用管理软件; 2)主线二:工具软件和其他重点行业软件;3)主线三:AI基础设施。

来源:中信证券研究

相关内容

热门资讯

腾讯混元发布业界首个开源3D世... 7月27日,2025世界人工智能大会腾讯论坛上,腾讯正式发布混元3D世界模型1.0,并宣布全面开源。...
直击WAIC丨科大讯飞携超20... 来源:新浪科技 新浪科技讯 7月27日下午消息,日前2025世界人工智能大会正式启幕。作为2025 ...
WAIC直击:科大讯飞要让AI... 7月26日,2025世界人工智能大会(简称WAIC 2025)人工智能终端产业发展论坛在上海世博中心...
“才艺表演”不是重点,具身智能... 图片来源:界面新闻记者摄 界面新闻记者 | 佘晓晨 界面新闻编辑 | 文姝琪 2025年,“...
大模型品牌全新升级,京东Joy... 7月26日,2025世界人工智能大会(WAIC)在上海盛大开幕。京东在此次大会,带来全新升级大模型品...
8款能放进口袋的有趣又便宜的小... 01 《猩猩相惜》 人数:3-8人 时长:15-20min 难度:2/10 价格:45元 说到口...
AI四小强重新上桌了? 来源:字母榜 当7月16日身着唐装的黄仁勋在公开演讲中,将MiniMax与“DeepSeek、阿里...
2025“夜动京城 潮你而来”... 7月25日, 2025“夜动京城 潮你而来”体育嘉年华首站活动暨启动仪式在首开通州万象汇圆满举行。 ...
阿里加入百镜大战,首款AI眼镜... “百镜大战”迎来重磅玩家。市场吹风多时的阿里巴巴AI眼镜终于“露出真容”。7月26日,2025世界人...
中国战队AG.AL获电竞世界杯... 新华社利雅得7月27日电(记者罗晨)26日晚在沙特阿拉伯首都利雅得举行的2025年电竞世界杯王者荣耀...
看“技术如何改变生活”,世界人... 新京报贝壳财经讯(记者俞金旻)7月26日,2025世界人工智能大会暨人工智能全球治理高级别会议在上海...
数字化智能化数字孪生车间建设方... 方案围绕数字化智能化数字孪生车间的建设展开,涵盖概述、实施步骤、各部分建设内容、案例及总结等。 数字...
《影之刃零》试玩首日,制作人梁... Transparency 《影之刃零》是由灵游坊自主研发并发行的一款买断制单机动作游戏,作品借助Un...
马卡龙潮酷设计加持:荣耀Ear... 在当下真无线蓝牙耳机市场,产品数量激增,消费者却常陷入选择困境。想要出色音质、强效降噪,又希望续航持...
OPPO申请图像投影设备专利,... 金融界2025年7月26日消息,国家知识产权局信息显示,OPPO广东移动通信有限公司申请一项名为“图...
土星卫星恩塞拉多斯:喷泉含盐,... 在浩瀚无垠的宇宙深处,隐藏着诸多令人惊叹的秘密,而土星的卫星恩塞拉多斯便是其中一颗充满神秘色彩的天体...
人工智能重塑智慧教育 智能助手... 中新网北京7月26日电(记者 吴涛)“我国智慧教育基础设施不断夯实,已建成全球规模最大的国家学术互联...
腾讯多款AI产品亮相大会 将披... 7月26日,在2025世界人工智能大会(WAIC 2025)现场,腾讯以“让好用的AI成为惠及人人的...
赛博朋克赛车新作《Cyber ... 如果把《赛博朋克2077》和《极品飞车》结合起来,再加点《烈火战车》或《争分夺秒》的调味剂,会得到什...