元脑服务器的创新应用:浪潮信息引领AI计算新时代
创始人
2025-03-10 10:41:15
0

来源:三号女青年

浪潮信息的元脑 R1 服务器现已全面支持开源框架 SGLang,能够在单机环境下实现 DeepSeek 671B 模型的高并发性能,用户并发访问量超过1000。通过对 SGLang 最新版本的深度适配,元脑 R1 推理服务器在运行高性能模型时,展现出卓越的处理能力,满足了现代AI应用对算力的严苛要求。

DeepSeek R1参数量达到6710亿,采用了MLA注意力机制和共享专家、路由专家共同组成的混合专家(MoE)架构,其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从AI服务器和推理框架入手开展了协同优化工作。

编辑

元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求,单机支持全量模型推理情况下,仍保留充足的KV缓存空间。显存带宽高达4.8TB/s,完美契合DeepSeek R1模型"短输入长输出、显存带宽敏感"的技术特征,在推理解码阶段可实现极致加速。在通信方面,GPU P2P带宽达900GB/s,保障单机部署张量并行最佳通讯性能。

SGLang是新兴的开源推理框架项目,其得到活跃的社区支持,并在工业界获得了广泛应用。SGlang的核心特性包括:快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang针对MLA注意力机制开展了针对性的工程优化,并在框架上对MoE架构的推理做了优化设计。SGLang也是最早适配DeepSeek v3和R1的优选推理框架之一。

目前,元脑R1推理服务器 NF5688G7已完成SGLang最新版本 0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践,在元脑R1推理服务器 NF5688G7上运行DeepSeek 671B R1模型,成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。

编辑

单路并发性能测试日志,根据TPOT换算用户解码性能为33.3 tokens/s

DeepSeek R1 671B是一个稀疏度较高的MoE架构模型,具有模型参数量大、计算量小的特点。和Dense模型相比,在满足KV cache的显存占用的前提下,可以支持更高的并发访问需求。实测数据表明,基于单台NF5688G7,在使用DeepSeek R1进行带思维链深度思考的短输入长输出的问答场景下,使用100/1000作为输入输出长度,实测在单个用户并发时的解码性能为33.3tokens/s;在16个用户并发时,每个用户有约20 tokens/s的解码性能;在64个用户并发时,每个用户有约10.4 tokens/s的解码性能。而在使用1024个用户并发访问的极限测试时,单台NF5688G7实现了3975.76 tokens/s的吞吐性能,可以满足超高并发场景下多用户使用需求。

编辑

1024路并发性能测试日志,测试使用了1000/1000的输入输出长度,实现了3975.76 tokens/s的总设备吞吐

浪潮信息团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高性能、高效稳定、性价比高的DeepSeek大模型部署服务方案,助力大模型快速落地应用。

浪潮信息团队与行业内的合作伙伴紧密协作,持续在计算架构、算子优化、并行策略及框架适配等多个领域进行创新,旨在为用户提供高效、稳定且具性价比的 DeepSeek 大模型部署服务。作为全球领先的 IT 基础设施产品和服务提供商,浪潮信息致力于通过元脑服务器推动人工智能的快速发展与应用落地,构建开放、绿色的智能计算生态。

相关内容

热门资讯

南阳市网络公司有哪些 河南智韬... 南阳市网络公司有哪些 南阳市网络公司有哪些 河南智韬信息科技公司 在数字化浪潮中,南阳市涌现出众多网...
Infosys与埃克森美孚扩大... 来源:美通社 (全球TMT2026年2月14日讯)Infosys近日宣布扩大与埃克森美孚的战略合作,...
2026年拉伸膜包装机产业数据... 定义: 拉伸膜包装机是一类用于将拉伸膜缠绕在托盘货物或单元化货物外部的包装设备,通过对薄膜施加可控拉...
金发科技申请聚苯乙烯复合材料专... 国家知识产权局信息显示,江苏金发科技新材料有限公司;金发科技股份有限公司;上海金发科技发展有限公司申...
(新春走基层)科技戍边 无人机... 内蒙古兴安盟2月14日电 题:科技戍边 无人机“鹰眼”点亮雪域边疆平安年 中新网记者 张林虎 新年前...
海南自贸港首个机场航空物流无人... 投资海口 “无人驾驶中,请注意。车辆行驶中,请注意。”2月12日,海口美兰国际机场正式上线海南自贸港...
春节机器人租赁火爆:一台月入2... 来源:时代周报 临近春节,人形机器人忽然成了最忙的“演员”。 “春节基本排满了。从近两个月的运营数据...
华为昇腾全系产品极速适配Min... IT之家 2 月 15 日消息,稀宇科技 2 月 13 日正式发布并开源新一代旗舰模型 MiniMa...
海南省侨联2026年新春贺词 亲爱的海外侨胞、归侨侨眷,朋友们: 龙马精神,盛世同春。值此马年新春佳节即将到来的美好时刻,海南省侨...
中国科技馆以系列春节科普活动开... 记者近日从中国科技馆获悉,春节假期期间,该馆以“骏马驰新程,科技耀新春”为主题,开展系列主题科普活动...
《天下贰·经典版》搬砖攻略来袭... 朋友们,见过玩家太热情,把官方“逼”到不得不亲自下场关闭服务器创建角色功能的场面吗?没骗你,《天下贰...
原创 皮... 大家好我是指尖,年限皮肤已经上线,朵莉亚的皮肤成为了年限皮肤销量榜首,这完全是情理之中,也是意料之中...
开门红 | 湖北大数据集团六大... 武汉小洪山数据产业园,湖北省企业数智化转型促进中心大屏上,实时跳动着全省中小企业的转型需求;AI工厂...
扬州高新橡塑取得橡胶减震联结轴... 国家知识产权局信息显示,扬州高新橡塑有限公司取得一项名为“一种橡胶减震联结轴”的专利,授权公告号CN...
赛瑞斯申请控制电解槽电池堆的方... 国家知识产权局信息显示,赛瑞斯知识产权有限公司申请一项名为“控制电解槽电池堆的方法”的专利,公开号C...
iOS 26.3 更新,这限制... 今天凌晨,苹果发布了 iOS 26.3 正式版更新。 iOS 26.3 的系统版本号为 23D127...
在二〇二六年春节团拜会上的讲话 同志们,朋友们: 丙午马年春节即将到来。今天,我们欢聚一堂,辞旧迎新。 首先,我代表党中央和国务院,...
(新春走基层)春运身影:机器人... “福兴”机器人与旅客握手互动。吴君毅 摄 中新网杭州2月14日电(王逸飞 徐子浩)“下一站到宁波了...
稳固密封系统取得旋转点胶装置专... 国家知识产权局信息显示,稳固密封系统(苏州)有限公司取得一项名为“一种旋转点胶装置”的专利,授权公告...
友协有礼:来自泰州兴化市的马年... 春启新程,岁纳吉祥。值此2026丙午马年新春佳节到来之际,兴化市人民对外友好协会向海内外华侨华人、国...