刚刚,杨植麟亲自发布Kimi K2.5开源新王:指挥“智能体大军”,效率暴涨450%
创始人
2026-01-27 22:43:42
0

智东西

作者 | 王涵

编辑 | 云鹏

智东西1月27日报道,今天,月之暗面Kimi开源了新模型——K2.5,杨植麟还特别发视频亲自介绍。

杨植麟分享称,K2.5是Kimi迄今为止最强大的模型。面对复杂任务时,Kimi K2.5可自主调度包含多达100个子智能体的集群,并行执行最高1500次工具调用。

相较于单智能体模式,其任务执行效率提升最高达 4.5倍。整个Agent集群由K2.5模型全自动创建与协调,无需任何预定义子智能体或工作流。该模型以Kimi K2为基础技术架构,在原有架构之上进行了持续的预训练优化,且训练过程中学习、融合了约 15万亿个“视觉+文本”混合形式的训练数据单元。

▲K2.5模型开源页面(来源:Hugging Face)

基准测试上,在Agents方面,HLE-Full(综合推理)、BrowseComp(浏览交互)、DeepSearchQA(深度搜索问答)三个基准测试中K2.5得分均位列第一;在编码方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual两项中均排名第一;在图像多模态方面,K2.5在文档理解测试mniDocBench 1.5中得分88.8,为第一名

▲K2.5模型基准测试

在Agent基准测试HLE、BrowseComp和SWE-Veried中,K2.5与GPT-5.2(xhigh)相比,在性能逼近的同时成本更低

▲K2.5模型性价比对比

外网网友对Kimi K2.5模型的评价可以说是好评如潮。FireworksAI联合创始人兼首席技术官Dmytro Dzhulgakov评论称“Kimi K2.5=开源SOTA推理+视觉+256K 上下文+智能体编码”。

▲外网网友评价(来源:X)

Thrive Protocol AI与数据工程师、Ethers Club播客主持人0xSero说(他用)Kimi创建了新的网站页面。

▲外网网友评价(来源:X)

KEA Research协作平台创立者Stanislaw则评价Kimi看起来十分有潜力。

▲外网网友评价(来源:X)

除了K2.5模型外,针对软件工程场景,Kimi团队还推出了编程产品Kimi Code。Kimi Code可直接在终端运行,并支持与VSCode、Cursor、Zed等主流IDE集成。该产品已开源,支持图像与视频输入,还能自动发现现有技能及MCP协议并迁移至Kimi Code工作环境。

价格上,K2.5模型API输入(每百万Token)4元,缓存输入0.7元;输出(每百万Token)21元

▲K2.5模型API价格

K2.5模型提供了四种模式:

1、快速模式:提供最快的响应体验;

2、思考模式:可以用来解答复杂问题;

3、Agent模式:擅长深度研究、PPT、Excel、Word、PDF和网页生成等任务;

4、Agent集群模式:适合需要并行处理的复杂任务。

▲K2.5模型主页

开源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社区:

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、几句话生成能交互的动态网页界面,K2.5降低视觉表达门槛

在Kimi团队内部编程基准测试集Kimi Code Bench中,K2.5在多语言环境下从构建、调试、重构、测试到脚本编写的端到端任务上均较K2有所增强。

▲内部编程基准测试集Kimi Code Bench

杨植麟称,Kimi团队不只是想让K2.5学会写代码,更希望它具备设计审美。在前端开发领域,K2.5能将简单对话转化为完整的前端界面,可以做出像专业设计师出品一样,有高级审美和动效的网页,就像这样:

在视觉编程方面,通过对图像与视频的推理,K2.5的图像/视频转代码生成与视觉调试能力增强,降低了用户通过视觉表达创意的门槛,直接上传一个录屏,就可以重建网页。

此能力源于K2.5的大规模视觉-文本联合预训练。当数据规模足够庞大时,视觉与文本能力实现同步提升。

K2.5还可以通过代码推理谜题并标记最短路径:

二、自主调动1500个协调步骤,K2.5端到端运行时间缩短80%

半年前,Kimi发布了首个万亿参数开源Agent模型Kimi K2。随后推出的Kimi K2 Thinking,通过增加思考时间,具备了独立完成长达300步操作的长程任务能力,但这还不够。

通过并行智能体强化学习(PARL)训练,K2.5模型学会了自主调度最多100个子智能体组成的集群,并行执行最多1500个协调步骤的工作流,整个过程无需预定义角色或人工设计工作流。

可以说,K2.5是从“单个专家”升级为了一个“专业团队”。

▲K2.5 Agent集群结构

K2.5 Agent集群通过并行、专门化的执行方式能够提升复杂任务的性能。在Kimi团队内部评估中,其能够将端到端运行时间缩短80%,同时支持更复杂、更长期的工作负载。

▲Kimi团队内部评估

在广泛搜索场景中,与单智能体执行相比,Agent集群可以将达到目标性能所需的最小关键步骤减少至原先的1/4到1/5.5。通过并行化,Agent集群实际运行时间最多可减少至原先的1/5.5

▲运行时间对比

在实际任务中,例如在大规模并行处理方面,面对在100个细分领域中找出排名前三的YouTube创作者的任务,K2.5 Agent集群首先研究并定义每个领域,然后自主创建100个子智能体进行并行搜索。

每个子智能体在其分配的细分领域内识别出领先的创作者,并将结果汇总到一个结构化的电子表格中。

在大规模使用工具方面,K2.5 Agent集群仅凭一张结婚照,就能启动20个并行子智能体,生成符合当地文化背景的全球婚礼旅行场景,并将它们整合到一个具有统一身份和服饰的互动网页中。

此外,在规模化产出方面,K2.5 Agent集群可以将一项涵盖40篇社会心理学论文的文献综述任务分解为多个专注于写作的子智能体。

每个子智能体负责综述的特定部分,它们的输出最终被综合成一份100页的双栏学术文档,其中包含格式完整的引文和参考文献。

最后,在大规模下载方面,K2.5 Agent集群能够调度多个具有专业分工的子智能体,共同协作处理保罗·格雷厄姆(Paul Graham)的文章。这些子智能体分别负责搜索、下载、分类、总结与汇编任务。

在协同工作下,系统将超过200篇原始文章按主题整理至6个分类文件夹,并生成了一份结构清晰的综合摘要报告。报告中所有引用均明确标注了对应的原始文章来源。

三、AI办公质量提升近60%,K2.5能处理大规模办公任务

不仅如此,K2.5已经开始熟练掌握Office套件的核心技能。

其能够端到端处理高密度、大规模的办公任务,该模型能解析大规模高密度输入,协调多步骤工具使用,并通过直接对话生成专业级输出成果,包括Word、Excel、PPT和PDF。

KImi团队针对真实职场场景,设计了两套内部专家生产力基准测试。AI办公基准测试评估端到端的办公输出质量,而通用智能体基准测试则以人类专家表现为标准,衡量多步骤生产级工作流的表现。

在这两项测试中,在两项基准测试中,K2.5的性能分别比K2 Thinking提升了59.3%24.3%

▲kimi内部专家生产力基准测试

K2.5智能体支持高级办公任务,例如在Word中添加批注、使用数据透视表构建财务模型、在PDF中编写LaTeX公式,并能处理长达万字的论文或百页文档等长篇输出。

例如生成包含图片的100个镜头的分镜脚本表格:

给技术报告增添行内注释:

从数据中提取30个带密码的工资单PDF文件:

结语:月之暗面或将着重多模态及智能体集群能力

一周前,市场还在为月之暗面在20天内估值暴涨约34亿人民币的消息而惊叹。一周后,这家北京AI独角兽就开源了新模型。

此次开源的K2.5模型,最亮眼的就是其“智能体集群”能力,将AI从执行单一指令的工具,升级为能自主调度、并行处理上千步骤的“团队”,而这正直指企业级应用的核心痛点:复杂、高成本、长周期的知识工作流程自动化。

整体来看,这是一次聚焦于提升模型实际效能、扩展多模态能力的技术迭代。此次发布展示了月之暗面近期的研发重心与成果,此前曝光的新融资或为这类深度研发提供更多支持。

相关内容

热门资讯

关于公开征集渭南华山云数据中心... 渭南市数字经济产业发展有限公司 关于公开征集渭南华山云数据中心 形象LOGO的公告 华山云数据中心是...
人形机器人抢着上春晚,谁是下一... 2025年春晚舞台上,宇树科技人形机器人的扭秧歌表演,引发了市场讨论,成为科技热点,品牌成功“破圈”...
原创 1... 如果你预算只有1000多元,选手机这事儿真挺“拧巴”的:你想要性能别太拉胯、续航别半天就告急、屏幕别...
三登春晚!浙江“智造”机器人凭... 来源:新蓝网 近日,宇树科技正式官宣成为中央广播电视总台2026年春晚机器人合作伙伴,这是其继202...
上海将适度超前建设一批智算基础... 钛媒体App 1月27日消息,2026“智算申城”高峰论坛上,上海市经济和信息化委员会副主任潘焱表示...
瑞松科技高精高速机器人正式投产... 1月27日,瑞松科技微信公众号发布信息称,近日,瑞松科技旗下子公司广州瑞松机器人技术有限公司创新研发...
虚拟现实电影工作组启动会在京召... 2026年1月27日,全国电影标准化技术委员会(以下简称“电影标委会”)组织召开了虚拟现实电影工作组...
REDMI Turbo 5系列... REDMI Turbo 5 系列目前已经定档 1月29日 19:00,官方预热剧透也正在进行。 据悉...
谷歌推出Gemini会议智能排... 谷歌正在推出一项Gemini功能,这对许多人来说可能会非常实用。这是一个谷歌日历工具,可以帮助确定安...
金融、电力、烟草、石油,多地对... “始终没有公示笔试、面试成绩。”参加某国企招聘后,一名2025年应届毕业生向中国新闻周刊表达了自己的...
中美AI竞赛,莫听穿林打叶声 去年1月20日,DeepSeek正式发布R1模型震惊全球。转眼一年过去,中国的“AI崛起”已成为有目...
内存涨得太离谱:手机、PC厂商... 快科技1月27日消息,由于存储芯片供应持续紧缩,PC、智能手机等消费电子制造商正陷入严重的断供危机,...
刚刚,杨植麟亲自发布Kimi ... 智东西 作者 | 王涵 编辑 | 云鹏 智东西1月27日报道,今天,月之暗面Kimi开源了新模型——...
南京奥疆科技取得一体化转子电磁... 国家知识产权局信息显示,南京奥疆科技有限公司取得一项名为“一种一体化转子电磁制动器”的专利,授权公告...
市政协委员张引:推动AR技术辅... 红星新闻网(记者 李婉清 李慧颖 )1月27日报道今日上午,政协第十六届成都市委员会第四次会议正式开...
除了马化腾演讲,腾讯年会还透露... 文 | 电厂,作者 | 花子健,编辑 | 高宇雷 AI被腾讯提到了前所未有的高度。1月26日,腾讯...
桌面装备新标杆:安克黑神话悟空... 对于重度电脑用户而言,桌面装备的实用性与颜值往往难以两全——要么功能强悍但设计平庸,要么外观吸睛却性...
江苏首个!南京市雨花台区人工智... 到2028年,南京雨花台区软件业务收入达到4500亿元,人工智能核心产业规模突破800亿元,软件及人...
广西“AI 教育”产教融合春季... 为深入贯彻《广西推进人工智能赋能教育行动方案(2025—2027年)》精神,推动人工智能与教育教学深...
北京两会 | 市政协常委李昕:... 开放科学作为促进科学知识共享、交流与合作的有效手段,越来越受到全球各主要科技创新中心城市的重视。近些...