英伟达发布Blackwell Ultra平台：能效与推理成本大幅优化，竞逐新一代算力基础设施制高点

随着AI应用快速扩展，传统计算架构处理大规模数据时面临能耗高、效率低的问题。英伟达最新发布的Blackwell Ultra架构针对这个瓶颈提出了解决方案。该架构的核心创新包括三个上。首先，NVLink互联技术将72个GPU整合为统一计算单元，实现130TB/s的超高带宽。其次，新型NVFP4精度格式提升运算效率。最后，优化的协同设计继续释放硬件潜能。实际应用中，Blackwell Ultra表现突出。根据DeepSeek-R1模型测试，相比前代产品，该架构单兆瓦吞吐量提升50倍，百万Token处理成本降低至三十五分之一。长上下文任务处理上，新一代GB300相较GB200实现了1.5倍的成本优化和两倍的速度提升，对代码库维护等高负载场景特别有价值。市场需求推动了这一创新。过去一年，与软件编程有关的智能查询量从11%增至50%，这类应用对实时响应和长上下文处理能力提出更高要求。英伟达通过优化TensorRT-LLM等工具库，使GB200在低延迟工作负载上的性能在四个月内提升5倍。英伟达已预告下一代Rubin平台将增强单兆瓦吞吐量10倍，表明能效革命仍将持续深化。

Blackwell Ultra架构的推出标志着AI芯片设计的转变——从单纯追求计算性能转向能效和成本并重。这反映了AI产业从探索阶段向规模化应用阶段的演进。能效提升不仅是技术进步，更是推动AI技术普及、降低应用门槛的关键。随着芯片能效改善和成本下降，AI技术将更深入地融入各个产业领域，成为驱动产业升级和创新发展的重要力量。