问题:大模型与智能体应用加速落地,算力体系面临“规模扩张难、效率提升更难”的新挑战。
当前,人工智能技术迭代快速,大模型参数规模持续攀升,智能体正从辅助工具走向生产核心环节,训练与推理对计算密度、网络时延、系统可靠性提出更高门槛。
在部分场景中,传统以服务器简单堆叠扩容的方式,容易出现集群越大调度越复杂、资源利用下降、训练稳定性受影响等问题,成为制约算力供给效率的重要瓶颈。
原因:从工程角度看,算力需求已由“单机性能竞争”转向“系统级能力竞赛”。
随着集群规模扩大,计算、存储与网络之间的协同效率决定整体产出;同时,软件栈、开发工具与生态适配若跟不上,会进一步抬高模型训练、迁移与部署成本。
尤其在多样化行业场景中,算力形态既要满足训练的高吞吐,也要满足推理的低时延与高并发,单一架构难以覆盖全部诉求。
影响:算力基础设施的演进路径,正在重塑产业竞争格局。
一方面,高效、稳定、可扩展的算力底座将直接影响模型迭代速度与业务上线周期;另一方面,开放的软硬件生态关系到开发者数量、应用繁荣度以及跨区域、跨行业合作的可持续性。
对运营商、金融、制造等关键行业而言,算力平台能否兼顾性能、可靠与可运维,将影响智能化升级的深度与广度。
对策:针对上述趋势,华为在本届大会期间首次在海外集中亮相多款超节点产品与解决方案,并介绍面向超节点的互联协议“灵衢”(UnifiedBus)及“集群+超节点”的系统级架构思路,旨在以更紧密的互联与资源协同提升算力供给质量。
据介绍,新发布的Atlas 950 SuperPoD超节点最大可支持8192卡互联,强调超大带宽、超低时延以及内存统一编址等能力,使大规模训练在逻辑上更接近“像一台计算机”进行协同计算,从而改善大集群场景下的效率与稳定性。
与此同时,面向不同业务规模和预算区间,华为展示了Atlas 850E等产品,覆盖训练与推理的多样化需求。
在通用计算领域,华为现场展示业界首创的通算超节点TaiShan 950 SuperPoD,并推出TaiShan 500、TaiShan 200等新一代通算服务器,提供高、中、低不同算力梯度的选择,意在满足企业从核心业务到边缘场景的差异化部署需求。
业内人士认为,通算与智算并进的产品组合,有助于客户以统一思路规划数据中心资源,实现从传统应用到智能化应用的平滑演进。
与硬件和架构创新同步推进的,是面向全球开发者与产业伙伴的开源开放举措。
大会期间,华为介绍了openEuler开源操作系统的持续贡献情况,并称该社区已形成较强的全球影响力。
在异构计算软件方面,华为全面开源开放CANN异构计算架构,通过分层解耦方式开放算子库、加速库、图计算与编程语言等关键软件代码,支持开发者按需使用并加快创新落地。
同时,CANN已对接并支持Triton、TileLang、PyTorch、vLLM、verl等开源项目与社区生态,以提升开发体验与工程效率。
值得关注的是,华为还宣布将在大会期间启动A2A-T(Agent-to-Agent for Telecom)协议配套软件的开源计划,意在通过开放协作推动电信级智能体通信标准的更广泛实践。
此次开源拟包含A2A-T协议SDK、注册中心与编排中心等核心组件:其中SDK提供智能体间标准化交互的集成工具;注册中心用于多智能体认证、寻址与技能管理;编排中心支持低代码、无代码的可视化工作流编排,并内置高价值解决方案包。
业内普遍认为,电信网络具备大规模、高可靠、强实时等特征,相关协议与工具的开放,有望促进智能体在运营支撑、网络运维与客户服务等场景的规模化应用。
前景:面向下一阶段,算力产业的关键变量将集中在三方面:其一,系统级架构能否在更大规模下保持高效协同,决定训练与推理成本曲线;其二,开源生态能否形成持续吸引力,决定工具链成熟度与应用扩散速度;其三,面向电信等关键行业的标准化接口与协议能否加速普及,决定智能体互联互通的产业上限。
随着全球对算力基础设施投入持续加大,以及行业智能化走向深水区,开放合作、协同创新将成为提升供给质量与降低创新门槛的重要路径。
在人工智能时代的大背景下,算力已成为新的生产力。
华为通过硬件创新与开源开放相结合的方式,既解决了当前算力供应的实际问题,又为全球产业界提供了可信赖的合作平台。
这种既坚持自主创新、又拥抱开放合作的发展路径,体现了负责任的大国企业担当。
随着越来越多企业加入开源生态,全球计算产业有望形成更加开放、更加高效的生态体系,共同推动人工智能技术造福人类社会。