问题——大模型时代,算力供给与系统能力成为“卡脖子”环节 随着大模型训练与推理进入规模化应用阶段,算力竞争不再只看单卡峰值,更取决于集群互联带宽、调度效率、内存体系和稳定性。长期以来,高端加速器及其软件生态全球范围内高度集中,供给波动、采购不确定性与成本压力叠加,使算力基础设施建设受到现实约束。对以大模型为代表的数字产业而言,稳定可控的算力底座以及产业协同能力,正在直接影响创新速度与落地效率。 原因——外部供给受限倒逼系统工程路线,软硬协同成为突破口 近年产业链变化显示,先进制程、关键器件与高端设备仍存在外部不确定性。企业如果仅沿着单点工艺追赶,往往周期更长、风险更高、投入更重。业界逐渐形成共识:算力竞争正从“单芯片竞赛”转向“系统工程竞赛”——通过芯片、互联、服务器、散热供电、编译器与框架适配的整体协同,在同等成本下提升可用算力与集群效率。华为在大会上提出的路线以大规模互联与超节点为核心,强调把大量加速卡“组织起来、调度起来、稳定跑起来”,以工程化能力形成差异化。同时,产业链协作也在加速重构:封装、散热、板卡、整机与系统软件等环节需要更紧密的联合研发和快速迭代,才能支撑超大规模集群的稳定运行。 影响——从单点指标走向集群能力,带动国产生态的规模效应 大会信息显示,昇腾950PR在低精度推理场景具备相对优势,Atlas 950超节点展示出8192卡级别的集群组织能力。业内人士指出,超大规模集群的价值不在于简单“堆卡”,而在于互联带宽、任务切分、通信与容错、热管理与能效等综合能力。一旦形成可复制的工程方案,将直接影响大模型训练周期、推理吞吐与整体成本结构,并对云计算、智能制造、自动驾驶、政务与金融等行业应用产生外溢效应。 更值得关注的是生态层面的推进。华为发布“灵衢2.8”开源包,开放固件烧录、操作系统调度与参考设计等关键内容,降低伙伴进入门槛,有利于中小硬件厂商与行业集成商在统一规范下更快推出适配产品,推动供给从“单一主体”走向“多主体协同”。如果软硬件接口与工程规范在更大范围内得到验证,将有助于形成国内算力基础设施的规模化交付能力,提升产业韧性与供给稳定性。 对策——以标准化、开源化与场景牵引做强产业协同 推动国产算力从“能用”走向“好用、易用、可规模化落地”,关键在三上: 一是强化系统级标准与工程规范。围绕互联协议、调度策略、可靠性评测与能效指标建立可对标、可复用的行业规则,减少重复开发与碎片化适配带来的成本。 二是加快软件栈成熟与开发者生态建设。持续完善编译器、算子库、框架适配与性能分析工具,推动主流模型、主流框架在国产平台上实现可迁移、可调优、可持续迭代。开源也不等于“放任不管”,仍需版本治理、社区运营与质量体系,确保产业伙伴“拿得到、用得上、跑得稳”。 三是以应用场景牵引产业迭代。在政务、运营商、金融、制造、能源等对安全与稳定要求更高的领域率先规模化部署,通过真实业务压力反哺产品与系统优化,形成“工程化—规模化—再优化”的循环。 前景——算力竞争进入系统架构新阶段,产业格局或将加速重塑 从全球趋势看,在摩尔定律放缓背景下,系统架构、互联技术与软件生态对算力效率的贡献持续上升。业内预测,国内AI加速器市场仍将扩容,市场份额也可能随着生态成熟而更集中。多家企业已在训练与推理环节尝试更大规模的国产集群部署;如果超节点方案在更多行业场景中通过稳定性与成本验证,国产算力将从“备选项”逐步变为“常用项”。同时,随着供应链协同加深,封装、散热、电源与整机制造等配套能力也将迎来升级窗口,带动产业链整体向高端化、体系化演进。
算力之争正从“单点突破”走向“体系能力比拼”。能否把数千张卡稳定组织起来,把带宽、内存、散热与调度做成可交付的工程产品,考验的不只是芯片指标,更是系统设计与生态协同。面向未来,谁能在开放标准、工程可靠性与规模化应用之间形成正循环,谁就更可能在新一轮产业变革中掌握主动。