问题——大模型训练对网络提出更苛刻要求,传统电交换面临“功耗墙、时延墙” 随着大模型参数规模与训练集不断扩张,算力集群从“单机性能竞争”加速转向“系统效率竞争”。多卡并行训练中,参数同步、梯度回传等通信占比上升,网络时延和拥塞直接影响训练吞吐;同时,交换设备与光模块带来的能耗快速累积,成为数据中心运营成本与散热设计的突出压力。业内普遍采用的电分组交换路径依赖“光—电—光”转换与电子芯片解析转发,链路越高速、端口越密集,能耗与发热越难以线性控制,传统架构在大规模智算场景的边际效率持续走低。 原因——“光—电—光”频繁转换与电子处理开销大,规模越大越显著 在电交换架构下,光信号进入交换节点后需经光模块转换为电信号,再由交换芯片完成读取、缓存、路由与转发,最后再转回光信号发送。该过程虽然生态成熟、协议完善,但在高带宽、低时延、强确定性的训练通信中,转换与缓存带来的额外开销不可忽视。业内测算显示,高速光模块自身功耗已较可观,叠加交换机内部高速串行收发等环节,单位比特能耗继续抬升。当集群规模从数十卡扩展到数百卡乃至更大规模时,这些“看不见的能耗与等待”会被放大为可观的运营负担,并加剧网络成为训练效率短板的风险。 影响——网络效能直接决定“算力能否转化为训练速度”,并影响产业自主可控 在智算中心建设加速背景下,网络的能效与可扩展性不仅是技术问题,也是产业竞争问题。若网络长期受功耗与时延制约,单纯堆叠加速卡难以带来等比例的训练增益,投资回报率会被稀释;同时,若关键互连方案高度依赖单一路线与单一生态,系统升级与异构协同的成本上升,产业链抗风险能力也会受影响。因此,探索更低功耗、更低时延、兼容性更强的网络路径,成为提升国产算力系统综合效率的重要方向。 对策——以光路交换(OCS)重构智算互连,推动端到端方案从验证走向商用 展会期间,上海仪电联合曦智科技、壁仞科技、中兴通讯发布“光跃超节点128卡商用版”。该方案以硅光OCS光交换芯片为核心,通过在物理层对光信号路径进行重构,减少传统电交换中反复的“光—电—光”转换与电子转发环节,从而在训练通信中实现更低时延与更高能效。发布方介绍,该超节点已实现长期稳定训练状态,传输时延相较传统电交换显著降低,并完成从概念验证到商用落地的跨越,成为国内较早的端到端OCS批量部署实践之一。另外,该方案已适配多款国产大模型训练需求,显示出在兼容异构生态、降低系统锁定风险上的潜力。 从技术路径看,OCS的价值不仅“降功耗、降时延”。一是带宽演进更具弹性,减少对电子交换端口速率与SerDes能力的单点依赖;二是协议适配更灵活,有利于在多供应商环境下构建可持续演进的互连体系;三是具备一定的快速重构能力,当链路或节点出现异常时,可通过调整光路实现绕行,提高系统整体稳定性。上述特性契合智算中心对高可用、可扩展、可运营的现实诉求。 前景——从“能用”迈向“好用、易用、规模用”,仍需在工程化与生态协同上持续突破 业内人士认为,OCS在智算网络中的规模化应用,关键在于工程化成熟度与体系化协同能力。一上,需要与调度系统、训练框架、网络管理平台联动,提升光路配置效率与可观测性,使“低时延通路”真正服务于训练任务的动态需求;另一方面,要在可靠性验证、运维体系、成本控制与产业链协作上形成闭环,推动从单点部署走向更大规模、更复杂业务场景的复制。随着国产算力产业链加速完善,围绕光互连、硅光器件、交换控制与系统集成的协同创新,有望进一步降低建设门槛,提升智算中心的综合能效与供给质量。
在全球数字化竞争日益激烈的当下,核心技术的自主创新已成为国家竞争力的关键。此次光交换技术的突破,既说明了我国科技企业的创新实力,也为构建安全高效的算力基础设施开辟了新路径。这提醒我们,唯有坚持自主创新、深化产学研协同,才能在关键领域实现从跟跑到领跑的历史性突破。