英伟达推理上下文内存存储对NAND意味着什么?
创始人
2026-01-15 04:21:40
0

花旗认为,英伟达在AI推理应用中采用的上下文内存存储技术,预计将加剧NAND闪存市场的供应短缺。

据追风交易台,花旗最新报告指出,英伟达推出的推理上下文内存存储(ICMS)架构将显著拉动NAND闪存需求,为存储芯片制造商带来结构性机遇,并可能进一步推升NAND价格。建议密切关注存储产业链供需格局变化,相关厂商有望持续受益于此轮需求增长。

英伟达宣布其Vera Rubin平台将采用搭载BlueField-4芯片的ICMS架构,通过卸载KV Cache突破内存瓶颈、提升AI推理性能。该架构单台服务器需额外配置1152TB SSD NAND,报告预计2026年、2027年将分别带来占全球NAND需求总量2.8%、9.3%的新增需求。此举将进一步加剧全球NAND供应短缺,同时为三星电子、SK海力士、闪迪、铠侠、美光科技等头部NAND供应商创造显著市场机会。

ICMS:AI推理的存储瓶颈解决方案

报告指出,大规模AI推理面临显著的内存瓶颈。Transformer模型的核心内存优化机制——KV Cache,通过存储已计算的键值对来避免重复运算,并根据性能与容量需求分层存储:活跃KV缓存存放于GPU HBM(G1),过渡/溢出KV缓存置于系统DRAM(G2),热KV缓存则分配至本地SSD(G3)。

为针对性优化这一架构,英伟达推出了推理上下文内存存储(ICMS)方案。该方案并非替代现有存储层级,而是在本地SSD(G3)与企业共享存储(G4)之间新增一个G3.5层级的专用KV Cache。这一层级能够高效地将G4中的冷KV上下文数据转换为G2中的暖KV缓存,并与HBM协同工作,从而显著提升数据传输效率与整体AI推理性能。

在硬件实现上,Vera Rubin平台采用16TB TLC SSD作为ICMS存储介质,结合KV缓存管理器与拓扑感知调度机制,目标实现三大性能突破:每秒处理令牌数最高提升5倍、能效比最高提升5倍以及更低的延迟。具体配置方面,每台服务器搭载72块GPU,每块GPU对应16TB ICMS专用NAND容量,使得单台服务器的总NAND需求达到1152TB。

英伟达在AI推理中引入上下文内存存储技术,标志着AI算力架构的重要演进。与传统训练场景不同,推理过程依赖于大量的上下文数据存储与快速调用能力。这一技术路径的转变,为NAND闪存开辟了全新的应用场景,有望成为继数据中心和智能手机之后的重要需求增长点。

NAND需求增量明确,供应短缺持续深化

花旗通过场景分析测算后认为,ICMS 架构的规模化落地将为全球 NAND 市场带来显著且确定的需求增量。报告预计,2026 年 Vera Rubin 服务器出货量将达到 3 万台,对应 ICMS 架构的 NAND 需求将达 3460 万 TB(折合 346 亿 8Gb 当量),这一需求规模占当年全球 NAND 总需求的 2.8%;随着 AI 推理需求的进一步释放,2027 年 Vera Rubin 服务器出货量有望增至 10 万台,届时 ICMS 带来的 NAND 需求将飙升至 1152 万 TB(折合 1152 亿 8Gb 当量),占全球 NAND 总需求的比例将提升至 9.3%。

报告同时指出,当前全球 NAND 市场本就处于供应紧张的状态,近年来 AI 产业的爆发式发展已推动数据存储需求持续攀升,NAND 作为核心存储介质的供需平衡已较为脆弱。而英伟达 ICMS 架构带来的新增需求具有刚性强、规模大的特点,将直接打破现有供需格局,导致全球 NAND 供应短缺的局面进一步加剧。

AI驱动下,NAND市场加速升级

花旗认为,英伟达ICMS架构的推出并非孤立的技术革新,而是AI技术与存储行业深度融合的必然结果,这一趋势将深刻影响NAND市场的未来发展。报告指出,在大模型推理场景不断拓展、运算规模持续扩大的背景下,存储系统的性能、容量和能效已成为决定AI应用体验的关键因素,这将推动NAND技术加速向更高密度、更快读写速度、更低功耗的方向迭代升级。

同时,报告预测,AI原生存储架构的创新探索将为NAND行业开辟新的增长空间,除了当前的ICMS架构之外,未来可能会出现更多针对特定AI场景的定制化存储解决方案,持续释放NAND的需求潜力。

报告还提到,ICMS架构带来的需求增量不仅将利好NAND厂商,还将向上游产业链传导,推动SSD制造、存储控制器等相关环节的协同发展,为整个半导体产业链注入新的增长动力。

相关内容

热门资讯

【科技前沿】“天马-1000”... 11日,由中国兵器工业集团西安爱生技术集团有限公司完全自主研发,有着“智能空中货拉拉”之称的“天马-...
一边爆炸断电,一边AI抢电!特... 一则消息突然刷屏。 1月13日,据央视新闻,当地时间1月12日傍晚,美国俄亥俄州克利夫兰市西部地区一...
英伟达推理上下文内存存储对NA... 花旗认为,英伟达在AI推理应用中采用的上下文内存存储技术,预计将加剧NAND闪存市场的供应短缺。 据...
菲利华:公司是国内航空航天领域... 证券日报网讯 1月14日,菲利华在互动平台回答投资者提问时表示,石英玻璃纤维和以石英玻璃纤维为基材的...
沈阳钧成材料取得锻造温度调节装... 国家知识产权局信息显示,沈阳钧成材料科技有限公司取得一项名为“一种锻造温度调节装置”的专利,授权公告...
原创 S... 1月14日消息,继上个月美国存储芯片大厂美光科技(Micron)正式宣布将退出 Crucial 消费...
天津国际焊接与激光展3月即将启... 天津北方网讯:近日,天津工博会传来好消息——中国焊接协会联合振威国际会展集团主办的2026天津国际焊...
阿坝发展万象新 | 九寨沟县迈... 近日,阿坝移动顺利完成九寨沟核心区域5G-A网络部署,核心区域实测平均下载速度突破1500Mbps,...
河南新乡:“黑科技”入驻博物馆... 当商代牛头爵、父己方鼎等国宝级文物,遇上“3D+VR”显示技术,将产生怎样的视觉冲击力? 没错,它们...
盐池县总工会:AI赋能数智化培... 为顺应数字化发展趋势,破解机关干部办公效率提升难题,1月13日,盐池县总工会组织开展工会数智化办公专...
谷歌重新拥抱被冷落的JPEG ... 谷歌已将JPEG XL(JXL)图像格式支持添加到开源Chromium代码库中,这一决定逆转了202...
正业科技:未向华为提供锂电智能... 证券之星消息,正业科技(300410)01月13日在投资者关系平台上答复投资者关心的问题。 投资者提...
硬科技龙头企业开启“规模化元年... 新华社北京1月14日电 《中国证券报》14日刊发文章《从技术验证迈向量产交付硬科技龙头企业开启“规模...
电竞手机性价比之争:2026年... 在2026年的电竞手机市场,性能与价格的平衡成为玩家最关注的焦点。随着移动游戏画质和帧率要求的不断提...
瑞银:2026年AI应用市场或... 中证报中证网讯(记者 魏昭宇)1月13日-1月14日,第二十六届瑞银大中华研讨会在上海举办。展望20...
祝融号新发现让寻找火星生命再添... IT之家 1 月 14 日消息,据央视新闻今日报道,我国“祝融号”火星车最近给乌托邦平原南部做了一次...
5连板涨超60%!脑机接口龙头... 来源:证券市场周刊市场号 文丨张桔 编辑丨谢长艳 2026年开年股市一路飘红,沪指一度站上4100点...
吉瑞隆取得恒压抗干扰变压器专利... 国家知识产权局信息显示,天津市吉瑞隆电器设备有限公司取得一项名为“一种恒压抗干扰变压器”的专利,授权...
伊克斯康取得简易大电流端子专利... 国家知识产权局信息显示,东莞市伊克斯康电子科技有限公司取得一项名为“一种简易大电流端子”的专利,授权...