“复仇”谷歌,GPT-5.2编码、做表、读图能力全面提升,能让打工人每周少干10小时
创始人
2025-12-12 13:01:21
0

出品|搜狐科技

作者|郑松毅

编辑|杨锦

剑指谷歌,OpenAI甩大招!

数小时前,GTP-5.2强势发布。此次更新被业界视为OpenAI对谷歌Gemini 3的直接回应,也标志着AI大模型竞争进入“实用主义”新阶段。

与以往不同,GTP-5.2的更新不再是炫技,而是更贴合“高级打工人”身份,在专业任务处理、长文本推理、编程开发等核心能力上实现突破性提升,尤其瞄准职场生产力场景,号称可让重度用户每周节省10小时以上工作时间。

本次更新包含GPT-5.2 Instant、Thinking与Pro三个版本:分别面向快速响应、深度推理与高质量输出三大场景。

即日起,Plus、Pro、Business与Enterprise等付费方案用户可率先体验,Free与Go用户预计将于明日获得访问权限。

据OpenAI官方数据,GPT-5.2在多项基准测试中刷新行业纪录。用一句话概括,在搞定复杂物理世界任务方面,GPT-5.2已经做到最强。

在GDPval测试中,GTP-5.2在涵盖44个职业的工作任务上,最高有74.1%的表现达到或超越行业专家水平。OpenAI介绍,“GPT-5.2 Thinking完成这些任务的速度是专家的11倍以上,成本不到专家的1%。”

来看看GTP-5.2做的统计表,是不已经赶超了不少打工人水准?

智能编码方面,GTP-5.2上分到了王者段位。在现实世界软件工程基准测试SWE-Bench Pro中,GTP-5.2 Thinking创下了55.6%的新纪录。

SWE-Bench Pro测试被业界视为编码“试金石”,同时测试四种编程语言,且测试题目涵盖高工业相关性、多样性,更具挑战。

在SWE-Bench Verified上,GTP-5.2 Thinking更是一举拿下80%的高分。

这意味着,它可以更可靠地完成生产环境代码调试、功能实现与大型代码库重构,减少对人工干预的依赖。

测试者发现,GTP-5.2在前端开发表现方面较上一代模型亦有显著提升,仅凭单一提示词即可生成带可调参数与逼真动画的完整单页应用。

长文本推理与视觉理解能力的升级同样值得关注。在MRCRv2基准测试中,GPT-5.2对数十万token跨文档信息的整合准确率远超前代,尤其在256k token上下文的多“针”识别测试中接近100%准确率,可高效处理百页级报告、合同、学术论文等超长文本。

视觉领域,其图表推理与软件界面理解错误率下降约一半,能精准解读数据仪表盘、技术图纸等视觉材料,适配金融、工程、设计等多行业场景。

科研辅助能力的进阶成为本次发布的“硬核亮点”。 GPT-5.2 Pro版在ARC-AGI-1测试中(衡量通用推理能力),成为第一个突破90%准确率的模型,成本较此前降低390倍。且模型整体幻觉率降低,为专业研究、决策支持等关键任务提供更可靠保障。

OpenAI介绍,在统计学习理论的一个开放难题——《关于最大似然估计量的学习曲线单调性》上,GPT-5.2直接给出经专家验证的可行证明方案,目前该篇论文已经发表。展现出AI在数学、理论计算机科学等公理基础明确领域的实质性科研价值。

API方面,GPT-5.2定价为每百万输入token 1.75美元、输出token 14美元;Pro版本最高支持“xhigh”第五档推理强度,定价为每百万输入token 21美元,输出token 168美元。尽管单价上涨,OpenAI强调,因模型效率提升,实际使用成本反而下降。

此次发布正值全球大模型市场从技术比拼转向应用落地的关键时期。国内外“Gemini”“Grok”、“千问”“Kimi”等产品正通过场景整合及降低应用成本抢占市场,行业竞争从跑分竞赛转向看谁能够精准满足用户需求。

北京邮电大学人机交互与认知实验室主任刘伟指出,“面对密集的产品发布,市场不乏‘重复建设’和‘内卷’的争议。大模型竞争的本质是‘技术竞争下的应用突围赛’,头部产品已经通过差异化定位形成独特的竞争力。”

新模型发布后,OpenAI CEO山姆·奥特曼在X平台发推文表示,“过去的十年非常精彩,OpenAI的工作比我想象的还要特别。”

他透露,圣诞节还会为大家带来一个“礼物”,下周就会推出,大家猜猜会是什么呢?

相关内容

热门资讯

外媒:研发团队“一边挖角一边流... 【环球网科技综合报道】12月22日消息,据《华尔街日报》报道,Meta公司正全力以赴在其超级智能实验...
科创综指ETF建信(58988... 来源:同壁财经 截至午间收盘,科创综指ETF建信(589880)跟踪的上证科创板综合指数涨1.68%...
德杯JDG惨遭LNG零封,赛后... 近日,随着德杯JDG被LNG零封遭遇两连败后,网上讨论“JDG新阵容”的帖子突然多了起来,似乎大家都...
为什么率土账号能成为游戏圈内“... 不知从何时起,“充钱不如买号”的观点,开始成为了越来越多玩家的共识。在他们眼里,放进游戏的钱就像泼出...
双喜临门!江苏中科机械斩获双重... 双喜临门!江苏中科机械荣获高新技术企业及专精特新企业认定 深耕化工装备与环保治理领域 近日,江苏中科...
坦然梦回巅峰,马超绕后一打四,... 王者荣耀挑战杯赛事精彩依旧在火热进行中,这一次是Hero和DRG的对决,虽然有复活甲,但是谁都想直接...
原创 无... 在《无限暖暖》2.0版本「祷声起诸大地」中,支线任务“沙漠来的舞者”很多人不清楚如何完成,为了让各位...
金融智能体迭代升级,超三分之一... 来源:市场资讯 (来源:第一财经资讯) 作为人工智能技术与金融业深度融合的新业态,智能金融发展正在呈...
百明信康完成超3亿元D+轮融资 投资界12月22日消息,近日,百明信康宣布完成超3亿元人民币D+轮融资。本轮融资由人保资本、Long...
《率土之滨》爽玩服改的有多狠?... 在游戏圈,有个不少玩家的共识:那就是“策划听劝”大概约等于“我是秦始皇V我50”。 但最近,《率土...
光合生态人工智能创新成果集中亮... 2025-12-22 10:33:37 作者:狼叫兽 12月17-19日,光合组织2025人工智能...
弗兰德新产线全面投用 订单排至... 作为全球机械传动行业龙头企业,弗兰德传动系统有限公司,在津新建的风电齿轮箱装配线正式投用。 随着风电...
《恶魔秘境》丛林猎手500魂地... 在《恶魔秘境》这款游戏中,玩家需要完成各种挑战和关卡才能领取对应的奖励,大部分的玩家不知道怎么用丛林...
AI“下”矿井,设备运维更“聪... □ 本报记者 张 宣 持续加强原创性引领性科技攻关。完善新型举国体制省域实现机制,采取超常规举措推动...
AI 智能体落地,北看字节,南... 文| 蓝洞商业 赵卫卫 半个月前,腾讯集团汤道生带着团队到访了重庆一家短剧公司麦芽传媒;但是数日后...
我国光计算芯片获重大突破!全市... 12月22日,科技方向整体活跃,其中光模块、通信设备、光学光电子、国产芯片等细分领域涨幅靠前。截至1...
智谱AI赴港IPO的生死时速 智谱AI与MiniMax正在展开一场赴港IPO的生死时速。 2025年12月17日,智谱AI正式通过...
精河枸杞+咖啡?这杯中西合璧闯... 枸杞邂逅咖啡 叩开欧美市场 12月17日,朱虹美对接线下商铺的促销细节后,又忙着询问中转仓与加工厂的...
当年火遍网吧的国产游戏,如今又... 不是哥们,这都2025年了!谁家游戏公司办线下活动,不往剧院、舞台整,偏要往网吧钻? 在聊今天的事...
全球首款2nm手机芯片来了 近日,三星电子正式发布了Exynos 2600,这是全球首款采用三星电2nm Gate-All-Ar...