英伟达公司的黄仁勋最近聊了聊高带宽内存(HBM)在搞人工智能算力时的重要地位。现在的人工智能技术竞赛越搞越热,大家都在琢磨到底用什么硬件架构才能让产业更高效、更省钱、还能走得远。 黄仁勋在一次交流活动里,把现在的硬件情况,特别是内存子系统这一块的技术路线争了个底朝天。他说,在接下来的日子里,HBM还是高端人工智能算力的顶梁柱。 现在的AI产业不光想跑得快,还得想办法压低系统的总拥有成本。大家开始琢磨别的替代方案,比如用静态随机存取存储器(SRAM)的加速器方案。这玩意儿数据访问速度快、延迟几乎没了,在有些测试或者推理任务里表现特好。 另外,开放权重模型也火了,这就让大伙儿想找一些更划算、更有性价比的硬件组合。有人觉得这可能能让我们少依赖英伟达那种HBM的高端方案。 黄仁勋也没藏着掖着,他承认对于一些定义得很清楚、要求很严格的活儿,SRAM确实快得惊人。不过他马上话锋一转说:SRAM想成为AI的主流核心内存?没戏! 黄仁勋分析说,现在的AI模型特别是大语言模型、多模态模型这些东西,参数多,处理的上下文量也大得吓人。SRAM因为物理限制和造起来太贵,容量涨得比模型膨胀还慢。一旦模型规模超过了SRAM的肚量,系统就得频繁去外边找数据,这就会把它的速度优势给吃没了,甚至可能成了新的瓶颈。 他还谈到了现代AI工作负载的特性特别复杂多变。有的模型需要巨量内存存参数和中间状态,有的则对芯片之间互连带宽要求高得离谱。这种不确定性对计算硬件提出了前所未有的挑战。 黄仁勋说:“要是硬件只给某一种特定的窄场景极致优化,比如完全依赖片上SRAM。”结果呢?一旦实际运行的任务变了样,“这些昂贵的专用硬件就可能闲置”。 在共享的数据中心环境里这种浪费可大了去了。经济代价绝对比买硬件本身的钱还高。 所以英伟达坚持要把GPU跟HBM深度耦合在一起。HBM是通过3D堆叠封装做到了高容量、高带宽还省电。 虽然HBM材料贵点,但它提供了灵活强大的内存系统。能适应不同规模不同架构的模型需求,“确保昂贵的计算硬件”在漫长的运营周期里保持高利用率。 这种“适应性”带来的长期效益才是关键。 关于开放模型会不会削弱现有硬件壁垒这个事儿?黄仁勋说模型越开放反而对底层算力的要求越高。现在的模型处理上下文越长、多模态能力越强,“对内存容量和带宽的需求只会持续增长”。 英伟达投入巨资研发HBM就是为了提供这种关键的“可选性”:既不让客户被锁在性能受限的方案里能自由选模型算法;又能让自家平台不怕模型架构快速迭代的冲击保持竞争力。 黄仁勋这番话其实是在说:AI要想从技术突破走向大规模落地的关键阶段就得在追求极致性能和应对复杂多变实际需求之间找个平衡。HBM不光现在好用,更是未来保障大规模投资效率的关键基石。 这场SRAM跟HBM的讨论其实就是整个行业在琢磨AI算力的发展范式:是搞高度专用化的局部最优解还是建个广泛适应性的通用强大平台?英伟达选了后者。这一步走对了对全球AI硬件生态的未来方向和竞争格局肯定有大影响。