英伟达刚刚给不少核心伙伴送了Vera Rubin的样品,打算下半年就开始大货。这东西可不只是简单的升级换代,是为了让AI数据中心彻底变强的全新设计。他们通过六款芯片的深度配合,把计算、网络、存储这些环节通盘解决,专门为那些长期跑大规模AI推理的大任务堵上漏洞。要是真用上它,性能能像爆炸一样猛增,而且电费也能省不少。 这平台最核心的是六样东西: 1. Vera CPU用的是英伟达自己弄的Olympus架构,里面塞了88个高性能的核心。利用空间多线程技术,一台机器能同时处理176个任务。比起老一代Grace CPU,它的数据处理和压缩能力翻倍,专门给那些费脑子的AI活儿打底。 2. Rubin GPU首秀就用上了下一代HBM4内存,单张卡有288GB的容量,带宽飙到22TB/s。还配了第三代Transformer引擎做引擎,FP4推理的时候能跑到50 PFLOPS,训练也有35 PFLOPS。比现在的Blackwell架构强多了,推理快了5倍,训练快了3.5倍。 3. Rubin CPX GPU是为了省钱或者对延迟要求高的情况准备的,有128GB高速GDDR7内存,灵活性很好。 4. NVLink 6.0交换芯片的速度特别快,单GPU双向带宽能到3.6 TB/s。放在NVL72系统里聚合起来能到260 TB/s,彻底把计算通信的堵点给通了。 5. BlueField-4 DPU是颗基础设施大芯,有固态硬盘加速能力。可以帮CPU把那些干杂活的事儿(比如键值缓存)给卸载了,让CPU专门去做核心计算。 6. 网络部分有1.6Tb/s的Spectrum-6光子以太网和Quantum-CX9光子InfiniBand网卡,配合对应的交换芯片,把网速拉得飞快又没阻塞。 为了保证平台好用,英伟达正和红帽、AWS、Anthropic、微软、Meta这些大伙伴一起改软件栈和硬件。现在看情况,云服务商和研究机构能先拿到整套NVL72机架系统(装了72个Rubin GPU和36个Vera CPU)。像富士康、广达、超微这些做服务器的厂商也都已经收到样品在测了。 这批样品出来不光是研发了个事,更说明英伟达的下一代AI计算基础已经进到了客户验证和生态搭建的阶段了。结合市场对算力的饥渴需求,这平台估计下半年就开始量产,还能让推理成本、能效和扩展能力再上一个台阶。