DeepSeek低调更新模型，代码和数学能力突出，有开发者直呼OpenAI和Anthropic麻烦了_游戏资讯

DeepSeek低调更新模型，代码和数学能力突出，有开发者直呼OpenAI和Anthropic麻烦了

创始人

2025-03-26 12:01:14

0次

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

“好得可怕。”这是开发者在实测DeepSeek最新模型后作出的评价。

3月24日晚间，DeepSeek悄悄上线最新更新后的模型DeepSeek-V3-0324，参数为6850亿，较去年12月发布的DeepSeek-V3的6710亿参数有所增长。

根据公开信息，DeepSeek-V3-0324延续了V3的核心架构，即基于混合专家（MoE）模型设计，模型参数包括6710亿的主模型和140亿参数的MTP（多Token预测）模块。

这款模型在开源社区Hugging Face亮相，但DeepSeek并未披露模型具体信息。DeepSeek官方也仅在用户交流群进行了同步，官方渠道（公众号、X平台）等均未发布有关推文。

虽然DeepSeek保持低调，且将此次定位为小型升级，但依然在开发者社群引发不少关注。

根据多位测试者反馈来看，DeepSeek-V3-0324在编程能力、数学推理、创造性任务等方面性能有明显提升，甚至优于Claude 3. 7系列，有评价认为其是“最强非推理模型”。

代码能力进一步优化，超过Claude-3.7-Sonnet

“DeepSeek-V3-0324是最好的非推理代码模型。”有开发者实测反馈称，其编码能力已接近国际顶尖闭源模型Claude 3.7 Sonnet，尤其是在前端代码生成和复杂逻辑处理中，表现出更高的准确性与流畅性。有用户评测称，其开发网站写了800多行代码且没有出现任何错误。

在多个编程评测基准上，DeepSeek-V3-0324取得了不俗的成绩。在开源社区的KCores大模型竞技场评测中，DeepSeek-V3-0324的编码能力位居第三，仅次于Claude-3.7-Sonnet-Thinking和Claude-3.5-Sonnet，超过了Claude-3.7-Sonnet、DeepSeek-R1、OpenAI-o1。此前，Claude-3.7-Sonnet被视为代码能力最好用的模型。

在涵盖C++、Java、Python等六种流行编程语言的测试‌Aider polyglot中，这款模型得分接近R1、Claude 3.7，超过o3-mini的水平。

同时，DeepSeek-V3-0324的成本也远远低于这些模型，预估仅有R1的五分之一。可以说，DeepSeek在优化性能的同时，依然在成本层面下足了功夫，这可能与其模型架构的进一步优化调整有关。

有分析称，这得益于DeepSeek进一步降低了激活参数，从而使得响应速度提升，同时资源消耗显著降低。“免费开源，且超级快，很高兴看到这些开源模型给大公司施加压力，促使它们以更低的成本构建更好的模型。”有开发者表示。

同时，这款模式还针对数学推理进行了训练后优化。在数学能力方面，有业内人士在测试后感觉，最新版本明显加入了CoT（思维链）的训练，可以认为有点“自适应思考”的意思。“会做思考的计划、反思和总结，但是思考比较克制，结果长度比深度思考模型要短。”

搜狐科技给DeepSeek-V3-0324上传了2024年高新课标考数学的前8道选择题，让其进行解答，最终结果让人震惊，全部正确！同时，它还给出了每道题的解题方法，且对稍微复杂的问题的结果还会进行验证。

此前我们将前述题目用于测试ChatGPT-4o、阿里通义、字节豆包、百度文心一言、腾讯元宝、讯飞星火、智谱清言、月之暗面Kimi、百川百小应、MiniMax海螺AI等10款大模型时，表现最好的模型只答对了5道。

在创造性任务方面，多位博主测试显示，DeepSeek-V3-0324在网站开发能力、UI设计等方面表现优秀，只需要简单的文本提示就能快速开发各种网站、App，审美比肩目前全球最强的闭源代码模型Claude 3.7 Sonnet思维链版本。

有博主对DeepSeekV3-0324、DeepSeek-V3、Claude 3.5、Claude 3.7下达了同样的任务，要求创建HTML文件，以生成动画天气卡，表现风、雨、太阳、雪等元素，卡片深色背景，并包括一种在不同天气条件之间切换的方法。该博主认为，DeepSeekV3-0324在指令遵循上最为完整，且视觉风格整体也相对较好。

（从上至下分别为DeepSeek-V3、Claude 3.5、Claude 3.7的结果）

“最好的非推理模型”，OpenAI和Anthropic麻烦了

需要强调的是，DeepSeek-V3-0324是一款非推理模型，而它的表现似乎已经超越了不少推理模型。开源社区GitHub上一个名为Misguided Attention的测试，这款模型排名第四，已经成为最好的非推理模型，得分相比此前的DeepSeek-V3提升了近100%。

该测试包含了如电车难题、薛定谔的猫等很多经典问题的改编版本，主要考验大模型在面对误导性信息时，能否不被表象迷惑，从而正确理解并处理。

DeepSeek-V3-0324相较DeepSeek-V3得分显著提高，表明其在注意力分配机制有进一步优化，从而在面对误导性信息时仍能抓住关键细节。

搜狐科技就对电车难题的改编版本进行了测试：假设在一个电车轨道上被绑了5个死了的人，而它的备用轨道上被绑了1个活着的人，又有一辆失控的电车飞速驶来，而你身边正好有一个摇杆，你可以推动摇杆来让电车驶入备用轨道，你会推吗？

（经典电车难题：假设在一个电车轨道上被绑了5个人，而它的备用轨道上被绑了1个人，又有一辆失控的电车飞速驶来，而你身边正好有一个摇杆，你可以推动摇杆来让电车驶入备用轨道，你会推吗？）

对于这个改编版本，DeepSeek-V3-0324经过了初始理解问题—关键信息解读—可能的行动选择—伦理分析—误区与验证—进一步思考—其他解释—结论等步骤，最终做出回答，认为最合理的选择是不推动摇杆，并给出了理由，整体篇幅多达2000字。

对比R1的回答，DeepSeek-V3-0324的前述思考过程类似R1的思维链过程，会考虑分析多种情况，并进行验证，呈现出推理模型的一定特征。R1最后的结果更为简洁，也选择不推动摇杆，并似乎意识到这是经典电车难题的变形，显然都没有被误导。

网易有道CEO周枫发文表示，现在模型厂商主基本都收敛到了基础模型+深入思考模型的组合，DeepSeek、OpenAI、Claude都是如此。“基础模型使用量比思考模型要大，而深入思考模型负责提供最高的质量，这样组合起来用比较好。”

在部署方面，虽然DeepSeek-V3-0324的模型参数更大，但也能实现在高端消费级硬件运行。苹果机器学习工程师Awni Hannun就基于MLX框架和4-bit量化，在512GB M3 Ultra实现了超过20 token/s的运行速度。

开发者工具创建者西蒙·威利森（Simon Willison）也在博客中提到，4-bit量化版本可将这款模型的存储空间占用降至352GB，从而使其能够在配备M3 Ultra芯片的Mac Studio等高端消费级硬件上运行。

此外，更让开发者关注的是，DeepSeek还将这款最新模型的开源协议从此前的自定义开源许可更新为MIT协议，和DeepSeek-R1实现一致。

MIT是最简单和宽松的开源协议，许可证文本更为简洁，没有专利授权和商标使用等复杂条款，且为完全开源，不限制商用，允许蒸馏，开发者将有更多自主权。

有评论认为，DeepSeek的策略体现了中国公司和西方公司在AI商业理念上的根本分歧。尽管OpenAI和Anthropic等美国领军企业将模型置于付费门槛之后，但中国的AI公司却日益倾向于采用宽松的开源许可。

开源还解决了中国AI公司面临的算力挑战，在有限计算资源下实现高性能，这种由需求驱动的创新现已成为潜在的竞争优势。此前，DeepSeek-V3仅用不到560万美元的训练成本就实现媲美o1等领先模型，引发业内震动。

另有分析指出，DeepSeek-V3-0324有可能成为DeepSeek-R2的基础模型，这遵循了DeepSeek 以往的模型发布模式，即基础模型比专业推理模型早推出几周。

此前就有消息称，DeepSeek将在3月中旬发布DeepSeek-R2，后遭官方辟谣。有报道称，R2将在多个关键领域实现突破，包括更出色的编程能力、多语言推理能力，以及更低的成本和更高的准确性。

“AI正在以惊人的速度发展，一个新的改变者已经进入赛场——DeepSeek正在AI社区掀起波澜，与行业巨头竞争。”有开发者直呼，OpenAI和Anthropic麻烦了。

除了DeepSeek-R2，市场还在等待OpenAI融合推理的GPT-5的到来，AI的竞争还将继续。

上一篇：LPL清算行动失败！TES回国三连胜，Doinb压力巨大，NIP沦为伪强队

下一篇：世界互联网大会2025年实践案例及领先科技奖已启动征集

DeepSeek低调更新模型，代码和数学能力突出，有开发者直呼OpenAI和Anthropic麻烦了

相关内容

热门资讯