问题——随着生成式模型与多模态应用快速发展,行业正面临“算力越强、供数跟不上”的结构性矛盾。一方面,GPU算力密度持续提升,训练与推理对数据读写的并发能力、稳定性和时延抖动更加敏感;另一方面,传统数据中心存储往往需要通过CPU与系统内存中转,数据路径更长,在高并发场景更容易形成瓶颈,导致GPU等待数据、利用率下降,进而抬高单次训练与在线推理成本。面对数万亿参数模型、上下文窗口扩展到百万级token的趋势,存储竞争正在从“容量与带宽”转向“更低时延与更高IOPS”。 原因——瓶颈的核心在于层级存储体系与数据通路不匹配。当前高带宽内存(HBM)容量有限,难以容纳更大数据集与更长上下文所需的工作集;当数据频繁在存储、内存、CPU与GPU之间搬运时,排队、协议与拷贝等额外开销会拉长端到端时延,在多租户或混部环境下也更容易出现抖动。此外,传统SSD主要面向通用数据中心负载,其峰值IOPS与读取时延难以满足模型训练与推理管线对“海量小随机读写、极低尾延迟”的要求,成为限制GPU持续满载运行的关键环节。 影响——在该背景下,英伟达与铠侠的合作指向“用存储重构供数链路”。铠侠新发布的E3.S CM9系列定位为“超高IOPS”SSD,采用XL-Flash方案,目标IOPS超过1000万,相比常见数据中心SSD约300万至400万IOPS有明显提升;读取时延压缩至3至5微秒,相较传统SSD常见40至100微秒,更有助于降低尾延迟对推理吞吐的影响。CM9系列单盘容量最高25.6TB,并强调在保修期内支持每天3次全盘写入,体现其面向训练日志、检查点与特征缓存等高强度写入场景的耐久性取向。按计划,该系列将于2026年底向客户提供评估样品,意味着对应的路线正从概念阶段走向产品验证。 对策——更值得关注的是其与系统架构的协同思路。英伟达提出的“Storage-Next”强调让服务器端SSD与GPU更直接连接,减少经由CPU中转带来的时延与效率损耗,意在为GPU提供类似“二级缓存层”的高速数据承载能力,以补足HBM容量限制,使GPU在密集负载下持续获得数据供给,减少因I/O等待产生的停顿。此前在GTC 2026大会披露的BlueField-4 STX存储架构,结合存储优化的BlueField-4 DPU与ConnectX-9 SuperNIC,英伟达称相比传统基于CPU的存储架构,可实现更高的token吞吐、更好的能效以及更快的数据摄取。整体来看,这一路线把存储、网络与加速计算联动优化,从单点硬件升级转向“端到端数据路径重构”。 前景——从产业发展看,高IOPS、低时延SSD与“直连GPU”的系统设计,可能成为下一阶段AI基础设施的重要方向:一是推动存储从“通用型”走向“AI特化型”,围绕推理尾延迟、并发小I/O与数据管线稳定性形成新的产品分层;二是促使数据中心架构继续减少CPU中转,DPU与高速互联在数据面承担更多职责,从而提升整体能效;三是在大模型向更大参数、更长上下文演进过程中,形成介于HBM与传统存储之间的“高速缓存型存储层”,以更具成本效率的方式扩展有效工作集。同时,这一路线能否规模化落地仍取决于生态适配、软件栈优化、可靠性验证与总体拥有成本等因素。2026年底评估样品的推出,将成为观察产业接受度的重要节点。
从算力竞赛走向系统竞赛,决定效率与成本的不只是更快的芯片,更在于数据能否以更短路径、更低时延、更稳定的方式抵达计算核心;围绕存储直连GPU与微秒级介质的探索,反映出大模型时代基础设施的新趋势:以数据通路为中心重塑架构,通过软硬件协同把“峰值指标”转化为“持续产出”。在这个过程中,谁能更早构建稳定、可扩展、可运营的端到端体系,谁就更可能在下一轮产业升级中占据主动。