nvidia把dgx spark算力盒子升级了

在3月17日这一天，NVIDIA把自家的DGX Spark算力盒子给升级了。以前大家都把它当成"小金盒"，现在它终于能让四台机子联网了，给大家搭出一个紧凑型的"桌面数据中心"。这一个盒子单拎出来，每秒能跑1千万亿次的AI运算，内存是128GB的大空间。要是把四台机器连在一起用，总运算速度就能冲到4千万亿次，内存也能扩容到512GB。为了让大家好摆弄，它支持好几种连接方式，全靠ConnectX-7网卡搭的高速RoCE通道来保证低延迟。单节点的时候，适合搞那种对速度要求高、数据又长的任务。比如用来推理大模型，单台能推2000亿参数的模型，微调能搞到1200亿。要是需要更大点的规模，就用双节点的配置，把速度再往上提一提，支撑4000亿参数的模型推理。要是搞训练或者需要更强的扩展能力，就用环形的三节点拓扑结构。而到了四节点这种顶配，只要配上RoCE 200GbE交换机，就能变成本地服务器了。这时候它能完美运行7000亿参数的大模型，还能搞定那些需要频繁通信的活儿。 NVIDIA说这种多台并行的模式性能提升是很线性的，不用像以前摆弄机架式服务器那么费劲。就拿Isaac Lab做强化学习的性能来说，一个节点能跑出630FPS，两个节点翻了一倍到1241FPS，四个节点再翻一番就成了2520FPS，而且延迟基本没变。再看Nanochat做微调的情况，一个节点每秒能输出1.84万个Token。两个节点就能飙到3.59万，四个节点又翻到了7.46万。这次升级里还有一个大动作是推出了全新的NVIDIA NemoClaw开源技术栈。有了它之后，DGX Spark就能变成一个全栈平台了。大家以后不仅能在上面直接搭建AI智能体让它们自己跑，以后要是要扩展到大型数据中心的AI工厂也很方便。还有软件版本也会接着更新，让管理编排变得更顺手。现在已经有不少金融、医疗、能源、通信的公司都用上了DGX Spark。这一仗打完后NVIDIA又证明了自己在硬件架构和生态方面的领先。从一个人单打独斗变成多机集群部署、从本地开发再到企业级的实际应用、它又一次站在了桌面级AI基础设施的最前面、巩固了自己在全球算力市场上的绝对老大地位。往后双节点和四节点的配置能让企业用更低的成本快速把AI业务落地、也能更快地推动AI智能体在各行各业普及开来。