国产光交换芯片实现商用突破 OCS技术重塑智算网络架构

问题——大模型训练对网络提出更苛刻要求，传统电交换面临“功耗墙、时延墙” 随着大模型参数规模与训练集不断扩张，算力集群从“单机性能竞争”加速转向“系统效率竞争”。多卡并行训练中，参数同步、梯度回传等通信占比上升，网络时延和拥塞直接影响训练吞吐；同时，交换设备与光模块带来的能耗快速累积，成为数据中心运营成本与散热设计的突出压力。业内普遍采用的电分组交换路径依赖“光—电—光”转换与电子芯片解析转发，链路越高速、端口越密集，能耗与发热越难以线性控制，传统架构在大规模智算场景的边际效率持续走低。原因——“光—电—光”频繁转换与电子处理开销大，规模越大越显著在电交换架构下，光信号进入交换节点后需经光模块转换为电信号，再由交换芯片完成读取、缓存、路由与转发，最后再转回光信号发送。该过程虽然生态成熟、协议完善，但在高带宽、低时延、强确定性的训练通信中，转换与缓存带来的额外开销不可忽视。业内测算显示，高速光模块自身功耗已较可观，叠加交换机内部高速串行收发等环节，单位比特能耗继续抬升。当集群规模从数十卡扩展到数百卡乃至更大规模时，这些“看不见的能耗与等待”会被放大为可观的运营负担，并加剧网络成为训练效率短板的风险。影响——网络效能直接决定“算力能否转化为训练速度”，并影响产业自主可控在智算中心建设加速背景下，网络的能效与可扩展性不仅是技术问题，也是产业竞争问题。若网络长期受功耗与时延制约，单纯堆叠加速卡难以带来等比例的训练增益，投资回报率会被稀释；同时，若关键互连方案高度依赖单一路线与单一生态，系统升级与异构协同的成本上升，产业链抗风险能力也会受影响。因此，探索更低功耗、更低时延、兼容性更强的网络路径，成为提升国产算力系统综合效率的重要方向。对策——以光路交换（OCS）重构智算互连，推动端到端方案从验证走向商用展会期间，上海仪电联合曦智科技、壁仞科技、中兴通讯发布“光跃超节点128卡商用版”。该方案以硅光OCS光交换芯片为核心，通过在物理层对光信号路径进行重构，减少传统电交换中反复的“光—电—光”转换与电子转发环节，从而在训练通信中实现更低时延与更高能效。发布方介绍，该超节点已实现长期稳定训练状态，传输时延相较传统电交换显著降低，并完成从概念验证到商用落地的跨越，成为国内较早的端到端OCS批量部署实践之一。另外，该方案已适配多款国产大模型训练需求，显示出在兼容异构生态、降低系统锁定风险上的潜力。从技术路径看，OCS的价值不仅“降功耗、降时延”。一是带宽演进更具弹性，减少对电子交换端口速率与SerDes能力的单点依赖；二是协议适配更灵活，有利于在多供应商环境下构建可持续演进的互连体系；三是具备一定的快速重构能力，当链路或节点出现异常时，可通过调整光路实现绕行，提高系统整体稳定性。上述特性契合智算中心对高可用、可扩展、可运营的现实诉求。前景——从“能用”迈向“好用、易用、规模用”，仍需在工程化与生态协同上持续突破业内人士认为，OCS在智算网络中的规模化应用，关键在于工程化成熟度与体系化协同能力。一上，需要与调度系统、训练框架、网络管理平台联动，提升光路配置效率与可观测性，使“低时延通路”真正服务于训练任务的动态需求；另一方面，要在可靠性验证、运维体系、成本控制与产业链协作上形成闭环，推动从单点部署走向更大规模、更复杂业务场景的复制。随着国产算力产业链加速完善，围绕光互连、硅光器件、交换控制与系统集成的协同创新，有望进一步降低建设门槛，提升智算中心的综合能效与供给质量。

在全球数字化竞争日益激烈的当下，核心技术的自主创新已成为国家竞争力的关键。此次光交换技术的突破，既说明了我国科技企业的创新实力，也为构建安全高效的算力基础设施开辟了新路径。这提醒我们，唯有坚持自主创新、深化产学研协同，才能在关键领域实现从跟跑到领跑的历史性突破。