问题:算力增长快,数据“喂不饱”成为新瓶颈 随着大模型训练、推理与科学计算任务规模持续攀升,处理器算力增速显著,但系统整体效率越来越受“数据搬运”限制。业内普遍认为,高端人工智能与高性能计算系统中,制约性能的往往不是运算单元本身,而是内存子系统能否以足够带宽、足够低延迟向计算核心持续供数。由此,围绕内存/存储层级的结构优化,成为硬件系统设计的核心议题之一。 原因:分层架构决定“速度与容量”必须分工协作 现代计算系统的内存/存储体系呈现典型的分层结构:在距离计算单元最近的位置,SRAM凭借极低延迟承担寄存器、缓存等最即时的数据读写;在高端平台中,紧随其后的主内存通常由HBM承担,以更高带宽、更优时延支撑核心数据调度;再往下,DDR/LPDDR等DRAM多作为补充主存或在成本敏感平台中担纲主存;而SSD、HDD等则用于承载更大规模的长期数据。该架构的底层逻辑是“以成本换容量、以技术换速度”:越靠近计算核心的存储介质越快但越贵、容量越受限;越远离核心则更便宜、容量更大但访问更慢。要让算力真正转化为效率,关键在于把高频、关键数据放到低延迟高带宽的层级中,而HBM正是这个层级里最具代表性的技术形态。 影响:HBM以“超宽I/O+3D堆叠”锁定高端主存位置 HBM的不可替代性,首先来自其面向带宽瓶颈的设计取向:通过显著拓宽I/O总线宽度实现超高并行传输,并以垂直堆叠方式提升单位封装内的容量密度。相较传统内存依靠提高单通道频率来换取带宽,HBM更强调“宽而不必极致快”,在可控功耗与时延条件下实现更高的有效吞吐。 从产业迭代看,HBM容量与带宽的增长轨迹清晰。业内资料显示,过去约11年,HBM单堆栈容量提升约6倍,带宽提升约9.8倍。代际演进中,堆叠层数从早期的4层、8层逐步发展到更高层数,单模块容量由早期最大约8GB提升至新一代可达约48GB;单I/O速率也持续提升,并在新一代产品上深入扩大总线宽度、缩小互连间距,带动整体带宽再上台阶。另外,先进封装的进展为HBM靠近计算芯片提供物理基础。近期在国际电子与材料会议期间,涉及的企业展示的封装技术路径,体现出“算力芯片+HBM+封装平台”协同优化的行业方向:不仅要提升内存本身指标,更要在互连、散热、供电与可靠性上形成系统级方案。 对策:从“拼参数”转向“系统共设计”,缓解供需与成本压力 HBM虽优势突出,但其高端化属性也带来成本、产能、良率与散热等现实约束。下一阶段产业需要在三上形成合力: 一是推进芯片与封装的协同设计。通过2.5D/3D等封装架构优化走线长度与互连密度,降低能耗与时延损耗,把带宽优势更多转化为应用端的有效性能。 二是完善供应链协同与产能规划。HBM制造涉及DRAM工艺、晶圆代工、封测与基板等多环节,任何环节波动都可能影响交付。强化上下游协同,有助于稳定供给、降低系统厂商的不确定性。 三是推动软件栈与系统调度优化。在HBM容量仍相对有限条件下,通过数据分层、张量并行与显存管理等手段,提高HBM利用率,并与DDR、SSD形成更高效的数据流动路径,减少“带宽空转”和无效搬运。 前景:HBM仍将主导高端赛道,替代者短期难以成熟 面向未来,随着大模型训练规模与推理并发持续上行,带宽需求的增长仍将快于容量需求,HBM在高端人工智能与高性能计算中的主存地位预计将延续。新一代HBM在更高I/O速率、更宽总线、更高堆叠层数以及更严格能效约束下演进,先进封装与互连技术也将继续决定其规模化落地速度。与此同时,行业也在探索更灵活的内存扩展与互连方案,以补足容量与成本侧的短板,但在“低延迟、高带宽、靠近算力核心”这一关键指标组合上,短期内仍难形成对HBM的全面替代。
内存存储架构的优化正成为决定AI芯片竞争力的关键。HBM过去十年的发展证明——在摩尔定律放缓的背景下——通过物理设计和工程创新仍能突破性能瓶颈。随着HBM4及后续技术的应用,高性能计算系统的存储能力将更提升,为AI和科学计算等领域提供更强支撑。