半导体存储技术取得重大突破 混合架构破解AI大模型"记忆瓶颈"

当前AI产业面临的核心困境是什么?随着大语言模型参数规模不断扩大至万亿级别,系统在处理用户对话时需要临时存储上下文信息,即所谓的KV缓存;缓存需求快速攀升,正成为限制GPU性能释放的关键瓶颈。在传统架构中,GPU既要负责计算又要承担数据存储与搬运,导致算力难以被充分利用,就像让运动员在比赛中额外背负负重。SK海力士近期在IEEE全球半导体大会上公布的研究成果,为这个难题提供了新的解法。该公司采用8个HBM3E高带宽内存与8个HBF高带宽闪存的混合堆栈配置,并与英伟达Blackwell GPU组合进行测试验证。结果显示,这种混合架构可将推理性能提升2.69倍;在千万级token的超长上下文场景下,系统批处理能力提升18.8倍。按测试数据推算,原本需要32个GPU才能完成的任务,在该方案下仅需2个GPU即可实现。 这一突破的关键,在于更合理地发挥不同存储介质的特长。HBM3E具备纳秒级响应,适合承载对延迟敏感的高频数据访问;基于NAND闪存堆叠的HBF则突出容量优势,单堆栈容量可达HBM的8至16倍。更重要的是,SK海力士在中介层引入延迟隐藏缓冲设计,相当于在闪存较慢的写入链路前增加缓冲与调度,使GPU尽量不因写入停顿而“等数据”,从而提升整体效率。 从产业竞争看,这一方向也带来新的变量。当前全球HBM市场主要由三星、SK海力士和美光主导,而HBF依赖的关键能力之一——混合键合工艺——恰是中国存储企业的重要优势。以长江存储为代表的国内厂商在晶栈架构等领域已布局300余项全球专利,其混合键合技术获得国际认可,甚至有韩国企业需要购买对应的授权。这意味着在新一轮AI存储架构升级中,中国企业有机会在部分关键环节争取更主动的位置。 不过,要走向大规模商用仍面临现实挑战。NAND闪存写入速度相对较慢,在动态KV缓存频繁更新的场景中,写入延迟仍是难以回避的瓶颈。SK海力士通过基极芯片控制器优化在一定程度上缓解了问题,但更彻底的方案仍有待验证。也正因如此,三大存储芯片厂商近期加速推进联盟合作,推动相关标准的统一。谁能更早解决写入延迟等关键难题,谁就更可能在下一代AI服务器内存标准制定中占据更强话语权。 从更宏观的角度看,H³混合架构的出现,反映了AI芯片产业设计思路的转向。过去业界往往偏向“带宽堆叠”,以不断提高速度来追求性能上限;而混合架构体现的是“效率优先”的路径:让快存储和大容量存储分工协作,在尽量不牺牲性能的前提下优化资源配置。这种理念变化,可能比单一指标的提升更具长期影响。

从“算得快”到“算得省”,推理时代的竞争本质上是系统工程能力的比拼。混合存储架构指向的不是简单的器件替换,而是通过更细的分层与调度重塑数据供给方式。随着技术验证、标准推进与生态完善同步展开,围绕存储层级与封装协同的创新,可能成为影响大模型应用规模化落地速度与成本曲线的关键支点。