昨天看到中科曙光的新闻,简直太激动了!国产IB网络终于从无到有,实现了真正的突破。他们推出了全栈自研400G无损高速网络,硬件软件全是自家的。记得以前,总觉得进口芯片卡脖子,现在曙光用112G SerDes IP起步,完全自主研发硬件设备。数据流动变得非常顺畅,给大家带来了很大的便利。我翻了下测试照片,去年底我们实验室试了类似集群。当时工程师小李调试交换机手忙脚乱,数据包丢了20%,他还擦汗说网速像PPT一样卡。现在曙光的这套方案结合了RDMA和分布式存储,数据像水流一样直达节点。 芯片用什么呢?曙光没明说,但我猜是海光或飞腾国产CPU。配套的SerDes IP肯定是自研的。以前英特尔InfiniBand主导市场,现在国产版成本降低了30%。我粗略估算了一下,不是很精确的数据样本有限。你知道IB网络吗?它比以太网要猛很多。这次曙光推出400G无损版本,原理很简单,像高速公路分道一样。RDMA直接内存访问,数据不需要经过CPU转发更快。 举个生活比喻:寄快递不用中转站就能直接送到家门前。AI训练时需要海量参数流动,这套优化方案能存算传一体化紧密耦合解决痛点。对比华为交换机和公有云流量虽然稳定但有差异明显。华为偏通用云网而曙光的IB更适合超算集群。 我跟老同行聊过这事,他说智算中心用起来数据流如丝般顺滑以前进口版兼容性差现在自研调试一天搞定眼睛都亮了。不过产业链上游芯片封装还是比较弱这个要实话实说别太乐观纸上谈兵风险大如果真落地优越我就信了。 回想2000年代网格计算时代超算靠网格互联慢得很数据同步卡壳现在IB进化存算一体曙光落地国家超算节点3套scaleX万卡集群超过3万张国产AI算力利用率提升了20%。具体数字可能有些差异但官方说显著提升我是信的。 小插曲是上周我和前同事喝茶他说起这网络在智算中心数据流非常顺以前进口版兼容性差现在自研调试一天搞定眼睛都亮了不过产业链上游芯片封装还是比较弱这个要实话实说别太乐观纸上谈兵风险大如果真落地优越我就信了。 有人问我马斯克怎么看马斯克没深入研究他推xAI特斯拉Dojo用高速网但国产IB他可能无视或者说有趣但规模小不确定纯属猜测。 回想起2019年曙光原型机延迟200微秒现在优化到50微秒以下非常好软件层管理全栈自研避免黑箱用户场景真实AI训练模型迭代快数据不丢我产生怀疑突破是好事但股价千万别问我这是行业惯例重大创新值得庆贺但落地慢实验室夜班跑基准测试曙光工程师远程指导数据峰值飙到400G屏幕绿灯闪大家击掌国产牛! 最后我想说国产IB网络突破是非常值得庆贺的事情但还要看到产业链上游还有很多工作要做希望未来能给我们带来更多惊喜吧!