英伟达的下一代ai 计算基础已经进到客户验证和生态搭建的阶段了

英伟达刚刚给不少核心伙伴送了Vera Rubin的样品，打算下半年就开始大货。这东西可不只是简单的升级换代，是为了让AI数据中心彻底变强的全新设计。他们通过六款芯片的深度配合，把计算、网络、存储这些环节通盘解决，专门为那些长期跑大规模AI推理的大任务堵上漏洞。要是真用上它，性能能像爆炸一样猛增，而且电费也能省不少。这平台最核心的是六样东西： 1. Vera CPU用的是英伟达自己弄的Olympus架构，里面塞了88个高性能的核心。利用空间多线程技术，一台机器能同时处理176个任务。比起老一代Grace CPU，它的数据处理和压缩能力翻倍，专门给那些费脑子的AI活儿打底。 2. Rubin GPU首秀就用上了下一代HBM4内存，单张卡有288GB的容量，带宽飙到22TB/s。还配了第三代Transformer引擎做引擎，FP4推理的时候能跑到50 PFLOPS，训练也有35 PFLOPS。比现在的Blackwell架构强多了，推理快了5倍，训练快了3.5倍。 3. Rubin CPX GPU是为了省钱或者对延迟要求高的情况准备的，有128GB高速GDDR7内存，灵活性很好。 4. NVLink 6.0交换芯片的速度特别快，单GPU双向带宽能到3.6 TB/s。放在NVL72系统里聚合起来能到260 TB/s，彻底把计算通信的堵点给通了。 5. BlueField-4 DPU是颗基础设施大芯，有固态硬盘加速能力。可以帮CPU把那些干杂活的事儿（比如键值缓存）给卸载了，让CPU专门去做核心计算。 6. 网络部分有1.6Tb/s的Spectrum-6光子以太网和Quantum-CX9光子InfiniBand网卡，配合对应的交换芯片，把网速拉得飞快又没阻塞。为了保证平台好用，英伟达正和红帽、AWS、Anthropic、微软、Meta这些大伙伴一起改软件栈和硬件。现在看情况，云服务商和研究机构能先拿到整套NVL72机架系统（装了72个Rubin GPU和36个Vera CPU）。像富士康、广达、超微这些做服务器的厂商也都已经收到样品在测了。这批样品出来不光是研发了个事，更说明英伟达的下一代AI计算基础已经进到了客户验证和生态搭建的阶段了。结合市场对算力的饥渴需求，这平台估计下半年就开始量产，还能让推理成本、能效和扩展能力再上一个台阶。