Token经济时代,AI推理跑不快的瓶颈是“存力”?
创始人
2025-11-08 00:24:43
0

大模型产业正在经历一场并不喧闹却足够深刻的结构性转向。过去两年,整个行业在造模型和堆GPU上不断加码,英伟达几乎成为所有基础设施讨论的起点和终点。

然而,当模型开始真正走向规模化推理、走向企业级落地、走向多模态和长上下文的新阶段之后,人们才逐渐意识到,决定 AI 体验、成本和性能的关键,不再只是更大的 GPU 集群,隐藏在算力体系背后、曾长期被视为后台工程的“存力”,浮出水面。

民生证券最新研报指出,受益于AI需求的强劲拉动,2025年第四季度存储价格有望持续看涨。这一积极预测,源于AI应用对存储提出更高要求,以及服务器端对高阶DRAM和HBM的需求增长,挤占了消费级DRAM的产能。

在日前由中国信息通信研究院组织的“先进存力 AI 推理工作研讨会”上,行业嘉宾达成共识,推理时代的性能瓶颈、成本压力和体验优化,正在从算力侧转移到存储侧,先进存力不再是配角,而是推动 AI 真正落地的主动力量之一。

推理,正在改变 AI 产业的优先级

如果说过去两年是“参数规模”的军备竞赛,那么 2025 年开始的阶段则更接近“推理效率”的商业竞争。Token调用量爆发式增长,推理成本持续攀升,在AI推理的性能指标中,都是以“Token数”为量纲。

AI加速落地,意味着“Token经济”的时代。模型训练可以只发生在几个大型企业的超级节点中,但模型推理则遍布千行百业、无数产品端,决定着实际用户体验、服务成本和业务可持续性。

推理负载的根本变化集中在三个方面:

  • 第一,长上下文和复杂任务让 KVCache 从模型的“临时记忆”变成影响性能的核心资产,其容量随输入长度呈指数级增长;
  • 第二,多模态从文本扩展到图像、音频、视频和时序数据,原本简单的顺序读写I/O模式已无法满足实时推理的复杂需求;
  • 第三,训推一体化趋势加速,模型在持续迭代和增量更新,推理系统需要在高负载下保持一致性、低延迟和稳定性。

这些变化共同导致一个现实——GPU 不是算不动,而是经常在“等数据”。当 HBM 无法容纳不断膨胀的 KVCache,当多模态输入让 I/O 链路变得拥堵,当存储延迟上下波动影响推理任务调度,GPU 的利用率下降并不因为算力不足,而是数据供给不上来。

于是,推理系统出现了越来越明显的存力瓶颈,算力资源在无谓地空转,直接推高了推理成本。数据显示,在推理侧每提升 20% 的算力利用率,就能带来 15%—18% 的整体成本下降,这一数字相比多少张GPU卡的投入,显然更具性价比。

算力不再稀缺,真正稀缺的是“把 GPU 喂饱”的能力

传统的信息基础设施中,存储的角色通常偏向“被动”。它存放数据、提供容量、保证安全与持久化。然而在大模型推理场景中,存储开始承担起一部分“助推计算”的职责:如何更快地将数据送到模型手中,如何让 KVCache 不阻塞推理,如何在不同模态间实现高效的数据编织,如何在训推混合负载下保持稳定性能,这些都决定了最终的推理吞吐和延迟。

行业的通常做法是通过分层缓存 + 动态调度提升 KVCache 管理效率,将系统划分为本地极速层、共享扩展层与冷备层,以异构介质对应不同场景的数据特性,并根据访问频率与时延诉求自动决策数据存放位置,从而在容量扩展、热点响应和成本控制三方面取得平衡。

中国移动云能力中心项目总师周宇表示,为提升数据流转效率,移动云正在推进基于 CXL 的新型高速互联,通过将 CPU 内存、GPU 显存及云主机内的闪存统一池化,使系统能够按需分配存储与内存资源,突破传统架构的物理边界。配合数据编织技术,多模态数据可在跨域环境下进行高效流转,以实现“一次写入、多模访问”的统一体验。

华为数据存储产品线战略与业务发展部总裁王旭东提到,IT基础设施能力面临三大挑战:“管不好” 的数据、“喂不饱” 的算力、“降不下”的成本。推理数据来源多样难以形成高质量、可持续供应的数据集,存储系统的带宽和IOPS(每秒读写次数)不足,导致GPU等昂贵算力资源长时间空闲。

推理时代的存储不再是以容量为中心,而是以“数据流动”为中心,因此必须围绕数据采集、治理、缓存、流转构建一套新的体系。

他表示,传统存储架构难以兼顾高吞吐、低时延及异构数据融合的需求,造成业务发展瓶颈,阻碍AI应用落地。华为针对AI推理研发的UCM推理记忆数据管理技术在行业落地中的核心作用,通过“集中高质数据、提速AI训练、优化推理效能”三个角度,打造AI推理加速解决方案。

华为在与运营商的合作中已经验证:对万卡集群进行全栈存力优化后,训练可以连续运行 22 天不间断,算效提升超过 50%,推理吞吐也同时得到显著改善。

北京硅基流动科技有限公司解决方案总监唐安波从框架层切入推理效率,硅基流动构建的AI infra工具链,聚焦提升算力利用率。核心推理框架适配100多款开源大模型,并通过公有云服务平台为广大开发者和企业提供优质的大模型服务。

解决方案上,结合UCM技术卸载KVCache释放显存、提升性能,还通过智能网关优化调度、弹性扩缩容应对长上下文等痛点,基于存储的KVCache方案可大幅提升系统吞吐。

下一代 AI 底座:存力的新共识

当人们讨论大模型的能力时,总习惯于关注参数规模、推理速度、token上限,但真正决定这些能力能否商业化的,是底层的“数据流动能力”。训练靠GPU,推理靠体系,而体系的核心越来越不是算多少、算多快,而是“如何让算力不被浪费”。

先进存力之所以成为行业焦点,不是因为存储厂商突然活跃,也不是存储颗粒涨价,而是整个 AI 推理体系遇到了结构性瓶颈。只有让数据能够在多模态、多级缓存、池化架构中更加高效、可靠地流动,大模型的能力才能真正转化为体验、业务与价值。

未来三年,至少有四个方向会成为产业共识。其一,GPU 不再是最稀缺的资源,真正的稀缺是“喂饱 GPU 的能力”。当 GPU 性能增长遇到边际收益下降,而推理负载持续增长时,如何提高 GPU 利用率比继续堆卡更具价值。存力池化、CXL 布局、多级缓存体系和 KVCache 外存化将成为必要能力。

其二,多模态带来的数据爆炸会让存储从“存放数据”走向“管理数据”。它将成为 AI 系统的主动组件,而不是被动容器。数据如何分类、如何治理、如何调度、如何快速靠近算力,将直接定义推理体验。

其三,训推一体化使存储系统的“实时性”从可选变为必选。在过去,训练对业务实时性影响不大,但未来增量训练和在线推理合流,一次 IO 放大可能直接导致前台延迟波动。存储不再只是后端,而成为业务链路的一部分。

其四,CXL 架构将重塑未来 AI 基础设施的内存与存储边界。CXL 不是某个厂商的技术,而是一种新架构语言,它让内存不再绑定 CPU,也让显存不再成为孤岛,构造出一种算力存力一体化的可能。

未来的 AI 竞争,不会只停留在模型比拼上,而是深入到底座重构之中。(本文作者 | 张帅,编辑 | 盖虹达)

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问

相关内容

热门资讯

求囤货照片,美国知名空头质疑英... 美国知名空头迈克尔·伯里征求美国英伟达公司图形处理器(GPU)被客户囤积的证据,尤其是照片。 美国本...
苹果为何在日本大幅降低“苹果税... 为了遵守一部新生效的法律,日本的“苹果税”率从30%调降至21%,中小开发者从15%降至10% 文 ...
公牛集团回应宣传语争议:有第三... 来源:澎湃新闻 此前,广东中山市家的电器有限公司(以下简称“家的公司”)多个销售人员在社交平台发布视...
上海发布“游戏沪十条”,为游戏... 12月19日,2025年度中国游戏产业年会在上海徐汇西岸国际会展中心落幕。大会发布《2025年中国游...
从代码到衣橱:SHEIN 斩获... 如果你对 SHEIN 的印象还停留在“一家神秘的时尚独角兽”,那你可能已经错过了它的第二张面孔,也是...
GPT - 5.2发布后用户吐... OpenAI十周岁生日时发布了GPT - 5.2,该模型在基准测试等表现亮眼,但社交网络上用户却集体...
瑞声科技(02018)入选“恒... 智通财经获悉,12月18日,恒生指数公司宣布推出恒生港股通电子业主题指数。 该指数反映可经港股通买卖...
2025年消费信贷市场观察:如... 随着消费信贷监管持续趋严,如何在众多借贷产品中甄别合规、透明、低息的正规平台,成为消费者关注的焦点。...
原创 罗... 朋友圈一句“我就要在网上发疯了”,让电信宽带“网速缩水”的行业秘密被推到了聚光灯下。这次开炮的,是以...
从实验室迈向千行百业 南京机器... 会爬坡越障的“钢铁侠”、在银行网点热情服务的“大堂经理”……这些本领各异的机器人,正从南京的实验室里...
斯瑞新材:商业航天领域客户覆盖... 中证报中证网讯(记者 何昱璞)斯瑞新材日前发布投资者关系活动记录表,公司董事会秘书王磊、投关专员孙晓...
以岭、先声、卫材争相布局!创新... 日前,市场监管总局联合中央网信办、工业和信息化部等部门印发《关于提升网络交易平台产品和服务质量的指导...
我国科学家实现新一代光计算芯片... 来源:市场资讯 (来源:新华社) 新华社上海12月19日电(记者陈潇雨)记者从上海交通大学获悉,该校...
摩尔线程发布新一代GPU架构!... “国产GPU第一股”摩尔线程(688795)发布新一代GPU架构。 12月20日,在摩尔线程首届MU...
原创 拆... 日前,广汽正式宣布启动自主品牌BU(业务单元)改革,昊铂与埃安被并入同一个事业部统筹运营,由张雄出任...
浦发银行“双App焕新” 以“... 近日,浦发银行以“伙伴·共创”为主题,在云端举办“浦惠来了”APP与“浦发银行”APP双平台焕新升级...
脑机接口新突破!大脑用“意念”... 高位截瘫患者仅凭意念,就可以操控轮椅在小区遛弯,指挥机器狗取回外卖——这不是科幻电影,而是近期我国科...
App里的新生活——2025年... 这一年,你的手机里新添了什么App?很多人的答案里至少有一个是人工智能(AI)。DeepSeek的小...
机器人板块集体走强,人形机器人... 12月19日,港仔机器人(00370.HK)涨10.29%,小鹏汽车(09868.HK)涨7.65%...
iPhone存储空间用完就坏?... 来源:界面新闻 界面新闻记者 | 宋佳楠 近日,“iPhone千万不能把存储空间用完”“iPh...