2025-12-22 16:03

一文带你解读国内AI存储厂商效果分析

00:00 00:00

在AI技术高速迭代的今天,从大模型训练到企业级数据湖仓,从智驾模型到医疗影像处理,存储系统的性能、扩展性与场景适配能力已成为AI项目落地的关键支撑。面对市场上琳琅满目的AI存储方案,技术决策者该如何选择?本文将围绕当前主流厂商的技术路线、核心优势及典型场景表现展开深度评测,为用户提供选型参考。

深信服EDS:打通AI与传统业务的统一存储底座

深信服EDS作为面向主存储的下一代分布式存储,其定位与以容量或边缘数据为主的Ceph系存储形成鲜明差异。其核心价值在于“统一”——通过自研全对称分布式架构,构建可横向扩展的存储资源池;以NVMe/SATA SSD为高性能层、机械盘为大容量层,实现冷热数据自动分层;同时提供块(SAN)、文件(NAS)、对象(S3)统一存储,面向AI采、标、训、推、归档全过程提供统一的数据存储底座,一套存储满足AI模型开发全流程、多业务部门、多环境的存储需求。

技术亮点:

一、在海量小文件处理方面,深信服通过巨量智能元数据能力,大幅提升元数据性能,加速AI数据准备

通过矩阵式算法,深信服EDS存储可缓存元数据规模是Ceph系存储的7倍,大幅提高元数据命中率;通过自研元数据库PhxKV,相较于开源通用KV数据库(MongoDB等)提升50%以上,并支持元数据处理能力横向扩展;并通过目录HASH的方式将目录请求打散分布到各个MDS 上,充分发挥各个节点的计算性能,实现MDS多并发和元数据服务的横向扩展能力。

二、在解决GPU饥饿方面,深信服通过全局IO动态整合,以超高吞吐和IOPS,大幅提高GPU利用率

动态读写缓存:根据业务比例动态调整读写缓存大小,保障最优的IO性能。

IO智能排序整理:深信服EDS存储将写IO在性能层进行智能排序整理后再追加写入容量层,解决容量使用超过80%时GC垃圾 回收挤占导致性能下降问题。

介质亲和写:深信服EDS存储通过数据聚合后追加写,解决小文件放大导致的空间浪费问题,并可充分利用机械盘顺序写的性能优势,提升数据回写性能。

三、自研高性能文件系统、架构创新、高可靠性设计,大幅提高AI建设的ROI

EDS的全自研“凤凰高性能文件系统”配合NVMe高速介质与RDMA低时延网络,实现了媲美高端阵列的小文件读写性能(极限场景下稳定运行)与大文件吞吐能力;全对称分布式架构支持百PB级容量与性能的独立线性扩展,性能层与容量层可独立扩容且业务无感知;内建智能防病毒、硬盘健康预测等主动防护机制,提前规避故障风险;软硬解耦设计摆脱硬件绑定,逻辑资源池可分钟级创建并自动纳管新增磁盘/节点,显著降低TCO

总结:深信服的统一存储既能满足AI等新兴应用的需求,又能满足传统业务的需求,一套存储打破时代和需求鸿沟,满足各类业务需求。

华瑞指数云ExponTech:存算分离的性能标杆

华瑞指数云ExponTech的核心技术路线是“存算分离”,其硬件采用F2026 AI服务器(2U闪存JBOF),配备2/4个NVIDIA BlueField-3 DPU与24块内置硬件压缩功能的ScaleFlux CSD5000 NVMe SSD,搭配NVIDIA Spectrum-X交换机;软件层则依托下一代分布式存储平台WADP(WiDE AI Data Platform),将后端运行于BlueField-3 DPU内,存储网关和协议部署在计算节点DPU内。

性能表现:单计算节点带宽近90GB/s(接近网卡物理上限),310万IOPS,且IOPS与DPU数量线性扩展(最大支持8张DPU,性能翻倍);小IO时延仅266μs,大IO时延<1ms。在MLPerf Storage v1.0测试中,其单客户端支持GPU数量全球第一,存储带宽近30GB/s(全球第二);SPC-1评测更打破了高端全闪存储纪录。

核心优势:存算分离设计让存储与计算节点可独立水平扩展,性能与容量等比例增长;ScaleFlux CSD5000 SSD的盘内透明压缩技术提升了存储效率,配合高密度存储(当前2U节点裸容量>1.6PB,2026年扩展至>6.6PB)与软件定义架构,大幅降低TCO;RoCE动态路由与负载均衡技术则保障了大规模RDMA组网下的高效带宽与低抖动。

适用场景:AI训练、推理集群及数据中心大规模存算分离场景,尤其适合对存储性能、扩展性要求极高的千卡级以上GPU集群。

极客天成极客追光:国产化适配的灵活之选

极客追光全闪一体机以RDMA技术为底座,支持分布式并行文件存储(NVFile)、块存储(NVMatrix)、对象存储(NVObject),采用全内核态软件架构(数据交换在内核态完成),部署方式灵活(纯软件或2U软硬一体方案,24块NVMe SSD)。

性能指标:其速度达120GB/s,是业界最快存储方案之一;全内核态架构减少了用户态与内核态的切换开销,进一步优化了数据处理效率。

核心优势:适配国产CPU(鲲鹏、海光、飞腾)与GPU(国产卡、寒武纪),支持国产化替代;Share Nothing架构无需依赖一体化硬件,可适配不同客户的现有硬件设备;数据冷热自动分级功能实现了业务无感知的自动化数据流动,显著降低运维成本。

适用场景:数据实时分析、深度学习、AI药物研发、大模型训练等需要国产化适配的场景,已在金融、医疗、电信等领域的千卡GPU训练集群中落地。

京东云云海存储:多模型兼容的稳定派

京东云云海存储以“高自研率+全场景覆盖”为特色,代码自研率98.9%(未依赖开源库),支持国产硬件(CPU、GPU、主板、SSD等)适配与信创环境兼容。在24块NVMe SSD配置下,其读/写带宽达95GB/s/60GB/s,IOPS 280万,单路4k读写延迟0.5ms,400GB IB网络带宽利用率84%(接近理论极限)。

核心优势:适配DeepSeek、ChatGPT、LLaMA等20余种主流大模型,技术储备覆盖从电商高并发到超算中心、大模型训练的全场景;服务100+大型企业(汽车、银行、零售等),无服务中断记录,稳定性经市场验证。

适用场景:大模型训练/推理、企业数据湖仓一体化、智驾模型训练(支持百个GPU计算节点高并发访问),尤其适合需要多模型兼容与长期稳定服务的企业级用户。

选型建议:场景适配是关键

AI存储方案的选择没有“绝对最优”,需结合具体场景需求:

○ 追求极致性能与扩展性:华瑞指数云ExponTech的存算分离架构与线性扩展能力更适合千卡级以上AI训练集群;

○ 国产化替代需求:极客天成极客追光的全内核态架构与国产软硬件适配能力是首选;

○ 多模型兼容与稳定性:京东云云海存储在企业级场景中表现更均衡;

○ 打通AI与传统业务:深信服EDS的统一存储底座能同时满足新兴AI与稳态业务需求,降低资源割裂与运维成本。

无论选择哪类方案,建议用户先梳理自身工作负载特征(如训练/推理场景、数据规模、AI框架),再通过厂商测试验证实际性能,最终选择最适配的方案。

来源:厂商供稿

相关

AI整合网络服务器交换机
本评论 更新于:2025-12-25 17:25:34
在C114 APP中与业内人士畅聊通信行业热点话题!