DeepSeek低调更新模型,代码和数学能力突出,有开发者直呼OpenAI和Anthropic麻烦了
创始人
2025-03-26 12:01:14
0

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

“好得可怕。”这是开发者在实测DeepSeek最新模型后作出的评价。

3月24日晚间,DeepSeek悄悄上线最新更新后的模型DeepSeek-V3-0324,参数为6850亿,较去年12月发布的DeepSeek-V3的6710亿参数有所增长。

根据公开信息,DeepSeek-V3-0324延续了V3的核心架构,即基于混合专家(MoE)模型设计,模型参数包括6710亿的主模型和140亿参数的MTP(多Token预测)模块。

这款模型在开源社区Hugging Face亮相,但DeepSeek并未披露模型具体信息。DeepSeek官方也仅在用户交流群进行了同步,官方渠道(公众号、X平台)等均未发布有关推文。

虽然DeepSeek保持低调,且将此次定位为小型升级,但依然在开发者社群引发不少关注。

根据多位测试者反馈来看,DeepSeek-V3-0324在编程能力、数学推理、创造性任务等方面性能有明显提升,甚至优于Claude 3. 7系列,有评价认为其是“最强非推理模型”。

代码能力进一步优化,超过Claude-3.7-Sonnet

“DeepSeek-V3-0324是最好的非推理代码模型。”有开发者实测反馈称,其编码能力已接近国际顶尖闭源模型Claude 3.7 Sonnet,尤其是在前端代码生成和复杂逻辑处理中,表现出更高的准确性与流畅性。有用户评测称,其开发网站写了800多行代码且没有出现任何错误。

在多个编程评测基准上,DeepSeek-V3-0324取得了不俗的成绩。在开源社区的KCores大模型竞技场评测中,DeepSeek-V3-0324的编码能力位居第三,仅次于Claude-3.7-Sonnet-Thinking和Claude-3.5-Sonnet,超过了Claude-3.7-Sonnet、DeepSeek-R1、OpenAI-o1。此前,Claude-3.7-Sonnet被视为代码能力最好用的模型。

在涵盖C++、Java、Python等六种流行编程语言的测试‌Aider polyglot中,这款模型得分接近R1、Claude 3.7,超过o3-mini的水平。

同时,DeepSeek-V3-0324的成本也远远低于这些模型,预估仅有R1的五分之一。可以说,DeepSeek在优化性能的同时,依然在成本层面下足了功夫, 这可能与其模型架构的进一步优化调整有关。

有分析称,这得益于DeepSeek进一步降低了激活参数,从而使得响应速度提升,同时资源消耗显著降低。“免费开源,且超级快,很高兴看到这些开源模型给大公司施加压力,促使它们以更低的成本构建更好的模型。”有开发者表示。

同时,这款模式还针对数学推理进行了训练后优化。在数学能力方面,有业内人士在测试后感觉,最新版本明显加入了CoT(思维链)的训练,可以认为有点“自适应思考”的意思。“会做思考的计划、反思和总结,但是思考比较克制,结果长度比深度思考模型要短。”

搜狐科技给DeepSeek-V3-0324上传了2024年高新课标考数学的前8道选择题,让其进行解答,最终结果让人震惊,全部正确!同时,它还给出了每道题的解题方法,且对稍微复杂的问题的结果还会进行验证。

此前我们将前述题目用于测试ChatGPT-4o、阿里通义、字节豆包、百度文心一言、腾讯元宝、讯飞星火、智谱清言、月之暗面Kimi、百川百小应、MiniMax海螺AI等10款大模型时,表现最好的模型只答对了5道。

在创造性任务方面,多位博主测试显示,DeepSeek-V3-0324在网站开发能力、UI设计等方面表现优秀,只需要简单的文本提示就能快速开发各种网站、App,审美比肩目前全球最强的闭源代码模型Claude 3.7 Sonnet思维链版本。

有博主对DeepSeekV3-0324、DeepSeek-V3、Claude 3.5、Claude 3.7下达了同样的任务,要求创建HTML文件,以生成动画天气卡,表现风、雨、太阳、雪等元素,卡片深色背景,并包括一种在不同天气条件之间切换的方法。该博主认为,DeepSeekV3-0324在指令遵循上最为完整,且视觉风格整体也相对较好。

(从上至下分别为DeepSeek-V3、Claude 3.5、Claude 3.7的结果)

“最好的非推理模型”,OpenAI和Anthropic麻烦了

需要强调的是,DeepSeek-V3-0324是一款非推理模型,而它的表现似乎已经超越了不少推理模型。开源社区GitHub上一个名为Misguided Attention的测试,这款模型排名第四,已经成为最好的非推理模型,得分相比此前的DeepSeek-V3提升了近100%。

该测试包含了如电车难题、薛定谔的猫等很多经典问题的改编版本,主要考验大模型在面对误导性信息时,能否不被表象迷惑,从而正确理解并处理。

DeepSeek-V3-0324相较DeepSeek-V3得分显著提高,表明其在注意力分配机制有进一步优化,从而在面对误导性信息时仍能抓住关键细节。

搜狐科技就对电车难题的改编版本进行了测试:假设在一个电车轨道上被绑了5个死了的人,而它的备用轨道上被绑了1个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道,你会推吗?

(经典电车难题:假设在一个电车轨道上被绑了5个人,而它的备用轨道上被绑了1个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道,你会推吗?)

对于这个改编版本,DeepSeek-V3-0324经过了初始理解问题—关键信息解读—可能的行动选择—伦理分析—误区与验证—进一步思考—其他解释—结论等步骤,最终做出回答,认为最合理的选择是不推动摇杆,并给出了理由,整体篇幅多达2000字。

对比R1的回答,DeepSeek-V3-0324的前述思考过程类似R1的思维链过程,会考虑分析多种情况,并进行验证,呈现出推理模型的一定特征。R1最后的结果更为简洁,也选择不推动摇杆,并似乎意识到这是经典电车难题的变形,显然都没有被误导。

网易有道CEO周枫发文表示,现在模型厂商主基本都收敛到了基础模型+深入思考模型的组合,DeepSeek、OpenAI、Claude都是如此。“基础模型使用量比思考模型要大,而深入思考模型负责提供最高的质量,这样组合起来用比较好。”

在部署方面,虽然DeepSeek-V3-0324的模型参数更大,但也能实现在高端消费级硬件运行。苹果机器学习工程师Awni Hannun就基于MLX框架和4-bit量化,在512GB M3 Ultra实现了超过20 token/s的运行速度。

开发者工具创建者西蒙·威利森(Simon Willison)也在博客中提到,4-bit量化版本可将这款模型的存储空间占用降至352GB,从而使其能够在配备M3 Ultra芯片的Mac Studio等高端消费级硬件上运行。

此外,更让开发者关注的是,DeepSeek还将这款最新模型的开源协议从此前的自定义开源许可更新为MIT协议,和DeepSeek-R1实现一致。

MIT是最简单和宽松的开源协议,许可证文本更为简洁,没有专利授权和商标使用等复杂条款,且为完全开源,不限制商用,允许蒸馏,开发者将有更多自主权。

有评论认为,DeepSeek的策略体现了中国公司和西方公司在AI商业理念上的根本分歧。尽管OpenAI和Anthropic等美国领军企业将模型置于付费门槛之后,但中国的AI公司却日益倾向于采用宽松的开源许可。

开源还解决了中国AI公司面临的算力挑战,在有限计算资源下实现高性能,这种由需求驱动的创新现已成为潜在的竞争优势。此前,DeepSeek-V3仅用不到560万美元的训练成本就实现媲美o1等领先模型,引发业内震动。

另有分析指出,DeepSeek-V3-0324有可能成为DeepSeek-R2的基础模型,这遵循了DeepSeek 以往的模型发布模式,即基础模型比专业推理模型早推出几周。

此前就有消息称,DeepSeek将在3月中旬发布DeepSeek-R2,后遭官方辟谣。有报道称,R2将在多个关键领域实现突破,包括更出色的编程能力、多语言推理能力,以及更低的成本和更高的准确性。

“AI正在以惊人的速度发展,一个新的改变者已经进入赛场——DeepSeek正在AI社区掀起波澜,与行业巨头竞争。”有开发者直呼,OpenAI和Anthropic麻烦了。

除了DeepSeek-R2,市场还在等待OpenAI融合推理的GPT-5的到来,AI的竞争还将继续。

相关内容

热门资讯

华帝取得一种翻转机构及其燃气灶... 国家知识产权局信息显示,华帝股份有限公司取得一项名为“一种翻转机构及其燃气灶”的专利,授权公告号CN...
环投集团渝东南分公司巧用一线智... 环投集团渝东南分公司巧用一线智慧破解运维“老大难” 早春的晨雾萦绕黔江山间,环投集团渝东南分公司的会...
华中数控:华中10型智能数控系... 证券之星消息,华中数控(300161)01月16日在投资者关系平台上答复投资者关心的问题。 投资者:...
【聚焦】延长母体陪伴时间能显著... 获得更长母爱的马驹展现出更强的社交意愿和技巧,它们更愿意探索新环境,休息得更安稳。 早期与照料者的分...
小米汽车申请应用启动方法专利,... 国家知识产权局信息显示,小米汽车科技有限公司申请一项名为“应用启动方法、装置、电子设备、存储介质及程...
“地表超强材料”,实现量产! 还记得小说《三体》里能将钢铁巨轮轻松切割的“飞刃”吗?最近,中国科学院山西煤化所磨剑数十年,与有关单...
苹果谷歌AI联姻背后的行业重构... 转自:中国经营网 中经记者 李玉洋 上海报道 一份联合声明,让两大科技巨头在大模型的研发和应用上携...
构建“10+1”创新型产业体系... 1月11日至13日,深入青岛高质量发展一线,解码这座海滨城市构建现代化产业体系、培育新质生产力的创新...
神舟二十号航天员“换乘”飞船返... 中新网北京1月16日电 (马帅莎 占康)1月16日,中国航天员科研训练中心在北京航天城举行神舟二十号...
专家解读 | 数据科技创新是驱... 编者按:数据科技是释放数据要素价值、驱动新质生产力的核心支撑。“十五五”规划建议提出,加快高水平科技...
一条内存半个月涨出一台iPho... 财联社1月16日讯(记者 王碧微)“报价单只管当天,明天什么价没人知道。”1月14日,在深圳华强北电...
四中全会精神在基层|一间实验室... 新华社天津1月16日电 题:一间实验室,何以攀登“脑机接口”高峰? 新华社记者郭方达、梁姊、杨文 “...
上海超导科技申请超导带材镀铜方... 国家知识产权局信息显示,上海超导科技股份有限公司申请一项名为“超导带材镀铜方法”的专利,公开号CN1...
微软关闭员工图书馆并削减订阅服... IT之家 1 月 16 日消息,据科技媒体 The Verge 今天报道,微软位于美国华盛顿州雷德蒙...
智能手表精准估算高级步态指标解... 我们通过大规模验证研究证实,智能手表是估算时空步态指标的高度可靠平台。 步态指标——包括行走速度、步...
刚刚拿下“全球首座”!AI竞跑... 齐鲁晚报·齐鲁壹点 记者 蔡宇丹 用104万条数据训练模型,让你喝的水保持“微米级”纯净。中美AI竞...
山东烟台:一箭四星,海阳“箭”... 1月16日凌晨,由烟台海阳东方航天港总装出厂的谷神星一号海射型(遥七)运载火箭在山东近海海域点火升空...
《如龙 极3/3外传 Dark... 《人中之龙 极3 / 人中之龙3外传 Dark Ties》将于2月12日登陆PC、PlayStati...
国际首次!“中国天眼”发现关键... ◎ 科技日报记者 陆成宽 1月16日,中国科学院国家天文台、中国科学院紫金山天文台召开新闻发布会。我...
在东方明珠盖别墅,「姚先生」庆... 喜迎乔迁。 文/王丹 1月15日晚22点40分,上海东方明珠城市广场已闭园。 我在围栏外往里瞅了眼:...