问题:大模型训练进入万亿参数时代后,算力系统面临“越堆越慢、越大越难管”的瓶颈。
一些传统GPU集群在扩展到数千卡规模时,常出现通信拥塞、资源碎片化、训练任务中断频发等现象,导致算力利用率下降、能耗与运维成本上升。
算力需求快速增长与数据中心能耗约束并行加剧,使“可持续的规模化”成为行业普遍课题。
原因:业内分析认为,瓶颈并不只来自单卡算力,更来自系统级协同效率。
其一,传统集群多采用分层网络与混合互联方式,随着规模扩大,跨节点通信代价显著上升,模型并行训练中的梯度同步、参数更新更易被“网络延迟与拥塞”拖累。
其二,集群规模越大,硬件故障与链路抖动的概率越高,若缺乏快速隔离与自动恢复能力,训练中断会造成长周期任务反复回滚,进一步拉低有效产出。
其三,数据搬运带来的通信能耗占比上升,在电力、冷却与机房承载受限条件下,单位算力成本成为新的硬约束。
影响:在此背景下,华为推出的Atlas950超节点被业内视作一次以系统工程重塑算力效率的探索。
华为介绍,该方案采用“灵衢”全光互联,提供16.3PB/s带宽,并通过统一编址与资源池化,将多达8192张计算卡组织为共享式的“逻辑单机”,以降低跨域通信开销。
现场演示中,工作人员拔除任意一张计算卡后,系统可在极短时间内完成光路切换并维持任务运行,体现面向大规模训练的容错与连续服务能力。
华为还给出测算数据称,超节点方案可将算力利用率维持在92%以上;在特定模型训练场景下,每PFLOPS算力能耗可降低约37%;通过智能运维与自动拓扑识别等能力,运维效率最高可提升至传统方案的约28倍;模块化设计支持算力单元快速扩展,缩短部署与维护窗口。
相关指标若在更多真实生产环境中得到验证,有望缓解“规模越大、效率越低”的行业痛点。
对策:多位受访人士表示,面向大模型训练与推理的基础设施建设,需从“堆芯片”转向“建系统”。
一是提升互联能力与软硬协同水平,通过更高带宽、更低时延的互联方案与统一资源调度,减少数据搬运与等待时间。
二是强化可靠性与可运维性,将故障自愈、在线扩容、自动均衡等能力前置到架构层,降低长周期训练的中断风险与人力投入。
三是以能效为导向优化全链路,统筹计算、网络、存储与冷却的综合能耗,推动数据中心在合规与低碳约束下实现稳定扩张。
四是完善软硬生态与工程化工具,围绕并行策略、通信算子、编译优化与监控体系形成可复制的交付能力,降低行业应用门槛。
前景:当前,全球智能算力建设正呈现两大趋势:一方面,模型规模与训练数据持续增长,促使算力系统向更高密度、更大规模、更强互联演进;另一方面,能耗、成本与供应链不确定性倒逼行业在架构与工程能力上寻求突破。
业内预计,未来一段时间,超节点、光互联、统一资源池等系统级创新将成为数据中心升级的重要方向,竞争焦点也将从单点性能扩展到“吞吐、稳定、能效、运维”的综合指标。
对企业而言,谁能在系统架构、软件栈与规模化交付上形成闭环,谁就更有可能在智能算力新赛道中取得先机。
AI算力竞争的演进过程,反映了技术发展的内在逻辑。
从单点突破到系统优化,从追求极限性能到追求整体效率,这种转变不仅改变了硬件设计的思路,更深刻影响了产业的竞争格局。
华为Atlas950超节点的推出,证明了在摩尔定律逐渐失效的时代,系统级创新仍能开辟广阔的发展空间。
这对全球AI产业而言,既是技术突破的示范,也是产业升级的信号,预示着AI基础设施将进入一个更加高效、智能、可持续的新阶段。