nvidia把dgx spark算力盒子升级了

在3月17日这一天,NVIDIA把自家的DGX Spark算力盒子给升级了。以前大家都把它当成"小金盒",现在它终于能让四台机子联网了,给大家搭出一个紧凑型的"桌面数据中心"。这一个盒子单拎出来,每秒能跑1千万亿次的AI运算,内存是128GB的大空间。要是把四台机器连在一起用,总运算速度就能冲到4千万亿次,内存也能扩容到512GB。 为了让大家好摆弄,它支持好几种连接方式,全靠ConnectX-7网卡搭的高速RoCE通道来保证低延迟。单节点的时候,适合搞那种对速度要求高、数据又长的任务。比如用来推理大模型,单台能推2000亿参数的模型,微调能搞到1200亿。要是需要更大点的规模,就用双节点的配置,把速度再往上提一提,支撑4000亿参数的模型推理。要是搞训练或者需要更强的扩展能力,就用环形的三节点拓扑结构。而到了四节点这种顶配,只要配上RoCE 200GbE交换机,就能变成本地服务器了。这时候它能完美运行7000亿参数的大模型,还能搞定那些需要频繁通信的活儿。 NVIDIA说这种多台并行的模式性能提升是很线性的,不用像以前摆弄机架式服务器那么费劲。就拿Isaac Lab做强化学习的性能来说,一个节点能跑出630FPS,两个节点翻了一倍到1241FPS,四个节点再翻一番就成了2520FPS,而且延迟基本没变。再看Nanochat做微调的情况,一个节点每秒能输出1.84万个Token。两个节点就能飙到3.59万,四个节点又翻到了7.46万。 这次升级里还有一个大动作是推出了全新的NVIDIA NemoClaw开源技术栈。有了它之后,DGX Spark就能变成一个全栈平台了。大家以后不仅能在上面直接搭建AI智能体让它们自己跑,以后要是要扩展到大型数据中心的AI工厂也很方便。还有软件版本也会接着更新,让管理编排变得更顺手。现在已经有不少金融、医疗、能源、通信的公司都用上了DGX Spark。 这一仗打完后NVIDIA又证明了自己在硬件架构和生态方面的领先。从一个人单打独斗变成多机集群部署、从本地开发再到企业级的实际应用、它又一次站在了桌面级AI基础设施的最前面、巩固了自己在全球算力市场上的绝对老大地位。往后双节点和四节点的配置能让企业用更低的成本快速把AI业务落地、也能更快地推动AI智能体在各行各业普及开来。