问题:大模型训练推高算力需求,供给“规模、成本、稳定性”上承压;近年来,通用大模型和行业模型迭代加快,训练侧对高并发、长周期、低故障的算力提出更高要求。万卡级集群逐渐成为衡量智算中心能力的门槛,但建设与运营涉及芯片供给、系统集成、散热与能耗、网络与存储协同等多个环节,任何短板都可能放大为整体效率下降。同时,跨区域算力分布不均,局部闲置与紧缺并存,也让算力的“可用性”和“可调度性”成为难题。 原因:算力竞争从单点设备转向体系能力,算网协同与能效成为关键变量。 一是规模化训练抬高了集群工程门槛。以中科曙光为例,其在郑州等地推进超集群部署与运营,积累了三万卡级国产算力池的运行经验。有关集群强调高密度集成、网络互联和稳定性保障,并把能耗作为硬约束。业内信息显示,其数据中心PUE处于较低水平,液冷与系统优化在大规模运行中的作用更为突出。 二是服务器与整机交付能力决定建设节奏。浪潮信息在AI服务器和数据中心整机领域布局较早,能够为万卡集群提供硬件底座与交付支持,并通过液冷整机柜等方案降低能耗和运维压力。公开信息显示,在AI需求带动下,部分企业业绩增长明显,也反映算力基础设施投资热度仍在延续。 三是算力获取从“以自建为主”转向“自建+租赁+平台调度”并行。鸿博股份通过建设高端GPU集群探索算力租赁运营,满足部分客户对快速上线和高端资源的需求;神州数码则以平台化方式(如“算力魔方”)推进跨区域、跨架构的匹配与调度,提高资源利用率,缓解局部紧缺与闲置并存的问题。 四是国产生态加速完善,但仍需工程化打磨。拓维信息作为昇腾生态的重要合作方之一,参与西北地区万卡级智算中心项目建设,强调全栈国产与供应链安全。西北地区在电力与场地上具备优势,但高海拔与气候条件也对散热和稳定运行提出更高要求,国产软硬件的协同适配将直接影响项目效果。 影响:万卡集群落地将重塑产业链分工,行业从“堆算力”走向“拼效率”。 其一,规模化稳定运行经验成为稀缺能力,带动芯片、服务器、网络、液冷与运维等全链条升级。其二,能效指标与电力成本将直接影响算力服务定价与可持续运营,PUE等指标会更频繁进入验收与采购评估。其三,算力的“可调度、可交易、可计量”将推动服务市场化,平台型调度能力有望成为新的枢纽。其四,国产替代从单点突破走向系统协同,兼容性、工具链、迁移成本等“最后一公里”问题将决定生态渗透速度。 对策:以算网协同为牵引,补齐“供给能力、运营能力、生态能力”三项硬指标。 一是加快算网一体化建设,推动算力中心与骨干网络、存储体系以及数据要素流通机制协同规划,降低跨域训练与推理的时延和迁移成本。二是把能效与可靠性纳入项目全周期指标,推广液冷、高密度供电与智能运维,建立面向万卡集群的稳定性评测与故障演练机制。三是支持“自建、租赁、混合云”等多路径供给,形成分层服务,让科研长周期训练、行业私有化部署与弹性租赁等需求各有匹配。四是持续完善国产软硬件适配与开发工具链,降低模型迁移与工程优化门槛,提升对开发者和行业客户的吸引力。 前景:万卡集群将从“能力展示”转向“规模化运营”,竞争焦点落在综合效率与服务质量。 随着训练任务走向更大参数与更长周期,能在高负载下保持稳定运行、实现高利用率并控制能耗成本的算力运营主体将更具优势。预计未来一段时间,头部企业将在三条赛道深入分化:超算与智算一体化集成能力、服务器与液冷的交付能力、平台化调度与算力服务运营能力。此外,国产生态将在规模化应用中持续迭代,通过工程优化逐步缩小兼容性与性能差距,算力供给的安全与可控水平有望增强。
万卡集群的价值不只是算力数字的提升,更是对工程体系、能源效率、网络协同与产业生态的一次综合检验。以“算得出、用得上、调得动、算得省”为标尺,推动算力建设从规模扩张转向高质量供给,才能让算力更好支撑产业升级与创新发展。