GPU巨头正在吞噬超级计算领域,传统存储难以满足需求
创始人
2025-11-18 11:41:25
0

超级计算领域正在发生分裂。曾经相对统一的大规模多处理器x86系统世界已经分化为相互竞争的架构,每种架构都在竞相服务于截然不同的需求:传统学术工作负载、极端规模的物理仿真以及AI训练的巨大需求。

Nvidia站在这场变革的中心,其GPU革命不仅仅是取得了进展,而是彻底颠覆了旧有秩序。

后果十分严峻。曾经推动数十年科学突破的传统存储系统,如今在AI无情的随机I/O风暴下不堪重负。原本设计用于顺序吞吐量的设施面临新的现实:元数据可能消耗所有I/O操作的20%。随着GPU集群扩展到数千台,一个残酷的经济真相浮现:GPU的每一秒闲置时间都在烧钱,这将存储从支持功能转变为决定成败的竞争优势。

我们采访了VDURA公司CEO Ken Claffey,了解这一地震级变化如何迫使超级计算基础设施从硬件到软件、从架构到经济学的全面重新思考。

超级计算机和HPC系统定义以及区别

这些界限确实很模糊且日益模糊。历史上,区别主要在于系统的规模(节点数量),因为商用服务器的Linux集群成为了事实上的构建模块(而不是之前的定制超级计算机,如早期的Cray系统或NEC矢量超级计算机)。如今,传统的工作组、部门、分部和超级计算机的细分可能需要更新,因为小型GPU集群的价值现在已经足以被分析师归类为超级计算机销售。

超级计算机的不同类型

并非所有超级计算机都相同。目前存在Linux集群超级计算机,这些系统主导着当今的Top500榜单。它们由数千台通过InfiniBand、以太网或专有互连连接的商用服务器构建。变种包括:

具有分布式内存的大规模并行集群(例如,美国能源部的Frontier系统)。每个节点运行自己的操作系统并通过消息传递进行通信。

由现成x86/GPU服务器构建的商用集群;超大规模AI集群属于此类。

不同的工作负载偏好不同的架构:CPU密集型、GPU密集型或内存中心型。天气和物理仿真受益于具有低延迟互连的矢量或大规模并行集群。

现代AI训练通常使用GPU密集型商用集群。

专用系统服务于加密或模式匹配等狭窄领域,但在AI相关用例中重新获得关注,特别是在推理、Grok、SambaNova等方面。

Nvidia NVL72机架规模GPU服务器

Nvidia将其GB200 NVL72描述为"机架中的百亿亿次AI超级计算机"。每个NVL72包含18个计算托盘(72个Blackwell GPU与Grace CPU配对),通过第五代NVLink交换机连接,提供130 TBps的互连带宽。NVLink结构创建了一个统一的内存域,总带宽超过1 PB/s,一个NVL72机架可以提供80 petaflops的AI性能和1.7 TB的统一HBM内存。

从纯粹的HPC角度来看,单个NVL72更准确地说是一个机架规模的构建模块而非完整的超级计算机,它缺乏完整HPC所需的外部存储和集群管理层。但当数十或数百个NVL72机架与高性能存储(例如VDURA V5000)互连时,生成的系统绝对符合超级计算机的标准。因此,NVL72处于边界:一个极其密集的GPU集群,可以成为更大HPC系统的一部分。

高带宽内存(HBM)技术发展

高带宽内存(HBM)通过硅通孔堆叠DRAM芯片,提供千位宽接口;HBM3e每GPU可提供高达1.8 TB/s的带宽。HBM并非Nvidia独有,AMD的MI300A/MI300X、Intel的Ponte Vecchio和许多AI加速器都使用HBM,因为以TB/s速度流式传输数据对于满足饥渴核心至关重要。HBM采用取决于经济性和封装设计:GPU可以证明成本合理,因为它们提供非常高的每瓦浮点运算,而通用CPU通常依赖带宽较低的DDR/LPDDR内存。

超级计算对AI工作负载的反应

AI革命已将HPC设施转变为AI工厂。从客户那里可以清楚地看到,随着用户部署越来越多基于AI的应用程序,他们的应用程序环境正在发生变化,这为HPC基础设施带来了新的挑战,因为他们增加了集群中的GPU数量。这反过来影响存储,因为AI应用程序以GPU为中心,创建尖峰、随机I/O模式,导致元数据成为I/O的10-20%。训练和推理都需要持续吞吐量:Nvidia建议DGX B200服务器每GPU需要0.5 GBps读取和0.25 GBps写入,视觉工作负载每GPU高达4 GBps。这意味着10,000 GPU集群需要5 TBps读取和2.5 TBps写入带宽。

为满足这一需求,HPC中心正在采用并行文件系统和NVMe优先架构。AI训练仍然依赖高吞吐量并行文件系统来供给GPU和处理大规模检查点,而推理工作负载转向对象存储和键值语义,需要强大的元数据性能和多租户。

HPC存储的演进

HPC存储已从专有的、硬件绑定架构演进为软件定义的横向扩展系统,专为AI和GPU驱动的工作负载而设计。此外,虽然HPC很大程度上是基于临时/Scratch性能文件系统的概念设计的,但AI更专注于持续性能和更广泛的SLA,更关心运营可靠性。

从专有到软件定义:早期HPC依赖具有HA配对和专用RAID控制器的封闭系统。现代平台已转向与超大规模云提供商设计一致的SDS模型,包含NVMe节点和开放供应链的无共享架构,可在商用硬件上水平扩展。

主要存储系统差异

超级计算存储沿着传统硬件绑定系统和为AI和数据密集型工作负载构建的现代软件定义架构之间的清晰界线分化。

行业正在从硬件定义的"系统"(控制器对、专有阵列)转向在商用NVMe和HDD介质上运行的软件定义存储(SDS)"平台"。SDS实现更快创新、混合介质分层(SLC、TLC、QLC闪存+ CMR/SMR HDD)、元数据加速和云端可扩展性——这是VDURA架构的基础。

DAOS发展现状

DAOS是一个开源项目。目前,它更多被视为技术集合而非成品。现在它隶属于HPE,我预期他们会投资使其成为真正的产品,就像我在ClusterStor对Lustre所做的那样。这需要多年的大量投资、大规模部署和运营成熟度才能从"项目"变为"产品"。

吞吐量对AI工作负载的重要性

IOPS(每秒输入/输出操作)衡量存储系统可以执行多少个小的4 KiB操作。这对事务数据库和VM是很好的指标。但AI和HPC工作负载流式传输大型数据集和检查点。专注于IOPS可能会误导:AI工作负载是吞吐量驱动的,以GBps或TBps衡量,因为它们移动大型顺序数据集。高带宽确保GPU保持忙碌,检查点不会停滞训练。并行文件系统在许多节点间分布数据以提供这种聚合带宽。没有足够的吞吐量,GPU就会挨饿,昂贵的计算周期就会浪费。

VDURA的V5000系统每节点提供超过60 GBps,每机架超过2 TBps。这确保AI管道受限于模型复杂性而非存储。VDURA还每机架提供高达1亿IOPS,因此它也能处理元数据密集的推理工作负载。

并行存储系统的优势

绝对如此。像NetApp ONTAP这样的非并行NAS系统依赖少数控制器处理I/O。正如我之前指出的,通用NAS无法提供AI所需的吞吐量或弹性。NetApp的AFX是他们尝试并行文件系统的努力。主流存储系统是为通用计算设计的。

在明确承认AI中的高级计算时,NetApp已经承认他们需要一种新型产品,即并行文件系统。他们没有为未来做好准备,现在正试图追赶。

Q&A

Q1:什么是GPU集群,为什么它对AI训练如此重要?

A:GPU集群是由数千台通过高速网络连接的GPU服务器组成的系统。对AI训练极其重要是因为现代AI训练需要持续高吞吐量,比如10,000个GPU的集群需要5 TBps读取和2.5 TBps写入带宽,而且GPU的每一秒闲置时间都在烧钱,使存储性能成为决定成败的关键因素。

Q2:传统存储系统为什么无法满足AI工作负载需求?

A:传统存储系统是为顺序吞吐量设计的,但AI应用程序创建尖峰、随机I/O模式,元数据占I/O操作的10-20%。像NetApp ONTAP这样的非并行NAS系统依赖少数控制器处理I/O,无法提供AI所需的吞吐量或弹性,因此主流厂商现在都在开发并行文件系统来追赶市场需求。

Q3:VDURA V5000系统有什么技术优势?

A:VDURA V5000采用软件定义存储架构,每节点提供超过60 GBps吞吐量,每机架超过2 TBps带宽和高达1亿IOPS。它支持混合介质分层、元数据加速、GPU Direct技术,并提供多级纠删码技术实现12个9的耐久性,确保AI工作负载不受存储性能限制。

相关内容

热门资讯

瑞凌股份接待1家机构调研,包括... 2025年12月17日,瑞凌股份披露接待调研公告,公司于12月17日接待银河证券1家机构调研。 公告...
荣耀WIN系列定档,新品下周见 今天,荣耀手机正式宣布,全新荣耀WIN系列将于12月26日14:30发布。 官方介绍显示,“官宣!荣...
【中证快报】12月16日中证投... 【中证头条】 火箭回收捕获臂全尺寸原型机交付 --------- 据报道,国内采用“不锈钢火箭+捕获...
我都化成灰33亿年了 咋还能被... 人类一直在以各种方法探寻生命起源之谜。近日,科学家通过人工智能技术,在南非距今33.3亿年前的岩石中...
日本火箭发射任务因设备异常紧急... 来源:市场资讯 (来源:新华社) 新华社东京12月17日电(记者钱铮)日本宇宙航空研究开发机构(JA...
打破学科界限,AI为音乐疗愈“... ◎本报记者 李 均 近日,在西藏自治区萨迦县麻布加乡中心小学六年级二班教室内,上海音乐学院人工智能音...
专家热议AI与劳动:赋能劳动者... 近日,在第59期“安泰·问政:人工智能时代的劳动与劳动者”论坛上,来自学界、企业界等嘉宾深入探讨人工...
“蚂蚁阿福”超半数用户 来自三... [ 目前全国已有500多位名医也在“蚂蚁阿福”上开设了“AI分身”。数据显示,这些“AI医生”已累计...
从“+AI”到“AI+” 智能... (记者 林碧涓)当生成式AI从实验室走向产业前沿,一场围绕AI“入口”的争夺战已然打响。从AI手机、...
华为云城市峰会2025·乌兰察... 12月16日,华为云城市峰会2025·乌兰察布召开。记者 王俊平 摄 12月16日,华为云城市峰会2...
原创 印... 近日,印度高调宣布了一件事:“2028年,印度航天局将发射“月船4号”去月球,挖2到3公斤土并带回地...
日本版GPS系统卫星发射紧急停... 新华社东京12月17日电(记者钱铮)日本宇宙航空研究开发机构(JAXA)17日原定发射一枚搭载日本版...
斩断网络伪科普幕后的“流量黑手... “吃木薯可以助眠”“冷冻馒头会长黄曲霉素”“量子育种能增产增收”……一段时间以来,网络平台上不时出现...
性能旗舰赛道再添猛将!荣耀WI... 【ZOL中关村在线原创新闻】当下手机市场,性能旗舰已成各大品牌必争之地,尤其是聚焦游戏体验的电竞赛道...
微博公布2025十大数码热词:... 12月17日消息,年末将至,今日微博公布了2025十大数码热词:手机国补、Air、eSIM、兼容苹果...
影石“连麦”腾讯背后:AI硬件... 来源:新京报 当下,一场看似无序的AI硬件跨界潮正在上演:阿里做AI眼镜,影石做无人机,大疆做扫地机...
深圳前海发布四大领域场景 科技日报讯(记者罗云鹏)记者12月15日获悉,在日前举办的2025前海·宝安“宝景创享”场景对接大会...
迈向自动驾驶:地平线技术生态大... 时代奔涌,风聚成潮。中国智能驾驶产业在经历了技术验证与场景探索后,正步入以“规模化商用”为核心命题的...
丝芭传媒回应鞠婧祎待遇和收入:... 12月16日,上海丝芭文化传媒集团有限公司官方微博@丝芭传媒发布“关于我司艺人鞠婧祎的事实阐述和声明...
原创 将... 前段时间,我们有个朋友在直播电商这个领域做了5年。他最近突然跟我们说,想转向做内容创作和电商的结合,...