光计算技术取得重大突破 新型芯片性能达传统AI超算10倍

问题:算力需求激增与能耗约束矛盾凸显 近年来,大模型训练与推理应用加速落地,算力需求呈指数级增长。

与此同时,数据中心电力、散热与运维成本持续上升,“高性能—高功耗—高成本”的矛盾日益突出。

GPU仍是主流AI加速器,但受制于互连瓶颈、能效边界及制造复杂度,产业界持续探索新计算范式,以寻求在能效、带宽与密度上的突破。

光计算被视为潜在方向之一,其优势在于光信号传输速度快、并行度高、互连损耗低,理论上有望在特定计算负载中实现更优的能效表现。

原因:光计算长期受限于器件尺寸与集成密度 光计算能否从概念走向规模应用,关键在于可制造性与可集成性。

Neurophos首席执行官Patrick Bowen在接受媒体采访时表示,传统硅光子工艺路线中,光晶体管等关键器件尺寸较大,长度往往达到毫米级,导致芯片可容纳的器件数量不足,难以形成与数字CMOS相当的计算密度,从而制约了光计算在通用加速领域的竞争力。

针对这一瓶颈,该公司宣称已将光晶体管体积缩小至原来的万分之一,使得在单芯片上集成更大规模的光子传感器阵列成为可能,为提升计算密度奠定基础。

影响:若指标兑现,或对AI硬件格局形成“差异化冲击” 根据报道,Neurophos推出的光处理单元(OPU)“Tulkas T100”面向FP4与INT4等低精度计算负载,宣称在功耗保持同等水平时,其性能可达到英伟达最新AI超级计算平台的10倍。

产品参数方面,该芯片理论运行频率达56GHz,配备768GB HBM,在1至2千瓦功耗区间内宣称可实现470 petaOPS的计算速度。

公司还披露,其在芯片上集成了1000×1000规模的光子传感器矩阵,而当前不少AI GPU常见矩阵规模为256×256,规模提升带来更强的并行计算潜力;与GPU包含多个Tensor核心的设计不同,其第一代加速器采用单个Tensor核心,面积约25平方毫米,试图以不同架构路径实现高吞吐计算。

业内分析认为,光计算若能在低精度矩阵运算、推理加速等场景实现可持续优势,将对现有GPU主导的算力供给结构形成差异化冲击,并可能带动上游硅光子、封装互连、存储带宽等产业链环节加速迭代。

但需要指出的是,媒体披露的性能对比多基于特定负载与理论参数,实际工程表现仍需更完整的测试数据、软件栈适配情况以及可靠性验证支撑。

对策:从“单点突破”走向“系统能力”,关键在验证与生态 从产业规律看,算力芯片竞争不只比拼峰值指标,更取决于系统级能力与生态成熟度。

光处理单元若要形成可复制的竞争力,需要在以下方面形成闭环:一是可制造性与良率,微缩器件能否在量产条件下稳定实现一致性,是决定成本与交付能力的核心;二是系统工程,包括供电散热、封装互连、与HBM的高带宽耦合等,尤其是千瓦级功耗对数据中心部署提出更高要求;三是软件生态,模型编译、算子库、框架适配与开发者工具链决定了芯片“可用性”,也是新架构替代传统GPU的最大门槛之一;四是标准与验证体系,独立第三方基准测试、真实业务负载评测与长期稳定性数据,将影响市场信任与商业化进程。

对行业主体而言,可通过建立开放评测机制、推动软硬协同优化、加强与云服务商及科研机构的联合验证等方式,降低新技术路线的落地风险。

对监管与产业政策层面,则可鼓励关键器件与先进封装、硅光子工艺平台的共性技术攻关,完善能效与碳排放导向的算力基础设施评价体系,为新型计算架构的试点应用提供条件。

前景:光计算或率先在特定场景落地,竞争将回归“能效与成本” 综合来看,光计算加速器更可能沿着“先专用、后通用”的路径推进:在低精度矩阵运算、带宽受限或互连开销显著的场景中,若能在能效与吞吐上建立稳定优势,有望率先形成商业化切入点。

与此同时,传统GPU及其生态仍在快速演进,先进制程、封装互连、混合精度与编译优化持续提升整体性能,意味着新路线必须在可量产、可部署、可开发、可维护等维度同时达标,才可能实现规模替代。

业内普遍认为,未来一段时间,AI算力竞争将从单纯追求峰值算力转向综合衡量能效、成本、供应与生态的系统竞争。

光计算若要真正“重写规则”,需要用可验证的工程结果回答市场关切,并在生态建设上完成从样机到平台的跨越。

光计算芯片的突破性进展为全球AI产业的可持续发展提供了新的可能性。

在算力需求持续增长、能源约束日益紧张的时代背景下,寻求更高效的计算方式已成为产业共识。

Neurophos的创新成果表明,通过关键技术的突破和工程化创新,新型计算架构完全可以在性能和能效上实现对现有方案的超越。

这不仅为AI芯片产业的竞争格局带来新的变数,也为全球科技创新指明了新的方向。

随着更多企业投入光计算领域的研发,这一技术有望在未来几年内从实验室走向实际应用,成为推动人工智能产业升级的重要力量。