国产算力集群实现重大突破中科曙光等领军企业构建自主可控AI基础设施

问题：大模型训练推高算力需求，供给“规模、成本、稳定性”上承压；近年来，通用大模型和行业模型迭代加快，训练侧对高并发、长周期、低故障的算力提出更高要求。万卡级集群逐渐成为衡量智算中心能力的门槛，但建设与运营涉及芯片供给、系统集成、散热与能耗、网络与存储协同等多个环节，任何短板都可能放大为整体效率下降。同时，跨区域算力分布不均，局部闲置与紧缺并存，也让算力的“可用性”和“可调度性”成为难题。原因：算力竞争从单点设备转向体系能力，算网协同与能效成为关键变量。一是规模化训练抬高了集群工程门槛。以中科曙光为例，其在郑州等地推进超集群部署与运营，积累了三万卡级国产算力池的运行经验。有关集群强调高密度集成、网络互联和稳定性保障，并把能耗作为硬约束。业内信息显示，其数据中心PUE处于较低水平，液冷与系统优化在大规模运行中的作用更为突出。二是服务器与整机交付能力决定建设节奏。浪潮信息在AI服务器和数据中心整机领域布局较早，能够为万卡集群提供硬件底座与交付支持，并通过液冷整机柜等方案降低能耗和运维压力。公开信息显示，在AI需求带动下，部分企业业绩增长明显，也反映算力基础设施投资热度仍在延续。三是算力获取从“以自建为主”转向“自建+租赁+平台调度”并行。鸿博股份通过建设高端GPU集群探索算力租赁运营，满足部分客户对快速上线和高端资源的需求；神州数码则以平台化方式（如“算力魔方”）推进跨区域、跨架构的匹配与调度，提高资源利用率，缓解局部紧缺与闲置并存的问题。四是国产生态加速完善，但仍需工程化打磨。拓维信息作为昇腾生态的重要合作方之一，参与西北地区万卡级智算中心项目建设，强调全栈国产与供应链安全。西北地区在电力与场地上具备优势，但高海拔与气候条件也对散热和稳定运行提出更高要求，国产软硬件的协同适配将直接影响项目效果。影响：万卡集群落地将重塑产业链分工，行业从“堆算力”走向“拼效率”。其一，规模化稳定运行经验成为稀缺能力，带动芯片、服务器、网络、液冷与运维等全链条升级。其二，能效指标与电力成本将直接影响算力服务定价与可持续运营，PUE等指标会更频繁进入验收与采购评估。其三，算力的“可调度、可交易、可计量”将推动服务市场化，平台型调度能力有望成为新的枢纽。其四，国产替代从单点突破走向系统协同，兼容性、工具链、迁移成本等“最后一公里”问题将决定生态渗透速度。对策：以算网协同为牵引，补齐“供给能力、运营能力、生态能力”三项硬指标。一是加快算网一体化建设，推动算力中心与骨干网络、存储体系以及数据要素流通机制协同规划，降低跨域训练与推理的时延和迁移成本。二是把能效与可靠性纳入项目全周期指标，推广液冷、高密度供电与智能运维，建立面向万卡集群的稳定性评测与故障演练机制。三是支持“自建、租赁、混合云”等多路径供给，形成分层服务，让科研长周期训练、行业私有化部署与弹性租赁等需求各有匹配。四是持续完善国产软硬件适配与开发工具链，降低模型迁移与工程优化门槛，提升对开发者和行业客户的吸引力。前景：万卡集群将从“能力展示”转向“规模化运营”，竞争焦点落在综合效率与服务质量。随着训练任务走向更大参数与更长周期，能在高负载下保持稳定运行、实现高利用率并控制能耗成本的算力运营主体将更具优势。预计未来一段时间，头部企业将在三条赛道深入分化：超算与智算一体化集成能力、服务器与液冷的交付能力、平台化调度与算力服务运营能力。此外，国产生态将在规模化应用中持续迭代，通过工程优化逐步缩小兼容性与性能差距，算力供给的安全与可控水平有望增强。

万卡集群的价值不只是算力数字的提升，更是对工程体系、能源效率、网络协同与产业生态的一次综合检验。以“算得出、用得上、调得动、算得省”为标尺，推动算力建设从规模扩张转向高质量供给，才能让算力更好支撑产业升级与创新发展。

国产算力集群实现重大突破 中科曙光等领军企业构建自主可控AI基础设施

国产算力集群实现重大突破中科曙光等领军企业构建自主可控AI基础设施