科大讯飞攻克国产算力训练难题 讯飞星火成唯一全自主算力训练主流大模型

围绕大模型产业化的核心瓶颈,业界普遍面临一道现实考题:在外部供应不确定性上升、算力获取成本高企的背景下,如何构建稳定、可持续、可迭代的训练与推理基础设施,从而支撑大模型能力持续提升并实现规模化应用落地。

1月12日,在深圳前海举行的第九届深商盛典暨中国企业家俱乐部20年活动上,科大讯飞董事长刘庆峰就这一问题给出判断——在全国产算力平台上,国产大模型通过工程体系与软硬件协同优化,即使参数规模相对更小,也能够在能力上对标国际领先水平;在芯片供应受限的背景下,自主可控的智能基础设施正加快成型。

问题的关键不仅在“有没有算力”,更在“算力用得是否高效”。

大模型训练涉及算力、网络、存储、编译与算子等多环节协同,尤其在万卡级集群下,通信开销、算子效率和推理吞吐等因素会显著影响整体成本与迭代速度。

刘庆峰表示,过去几年在算力资源相对紧张的条件下,为持续优化星火大模型训练与推理的成本效率,企业投入大量资源进行系统性攻关。

与部分企业直接在成熟的海外加速卡体系上做工程优化不同,科大讯飞选择走“全国产算力”路线,难度更高、周期更长,但在供应韧性与长期可持续方面具备战略意义。

从原因看,全国产算力路线面临的挑战具有“系统工程”特征:一是万卡规模下高速互联与组网能力决定训练效率上限,通信与计算协同不好会导致算力闲置;二是训练与推理对算子库、编译器、框架适配提出更高要求,若生态不完善,将造成性能折损;三是类深度推理模型与长思维链训练对交互强度、强化学习等流程提出新要求,进一步放大了底层能力短板。

对此,科大讯飞披露,自2023年5月起与合作伙伴围绕万卡高速互联组网、计算通信隐藏、训练推理强交互、高吞吐推理优化以及国产算子优化等开展攻关,使通用大模型及类深度推理模型训练效率(对标A100)由早期的30%—50%提升至85%—95%以上。

从影响看,训练效率提升的直接结果是“同等成本下更快迭代、同等时间下更强能力”。

在大模型竞赛进入“能力—成本—应用”综合比拼阶段,效率提升意味着更短的模型更新周期、更低的单位算力成本,也意味着更有条件将大模型能力下沉到教育、办公、政务、医疗、工业等场景中,以可控成本支撑更广覆盖的推理服务。

同时,在供应链不确定性背景下,全国产算力路径若能形成可复制的工程范式,将为产业提供一条更具确定性的技术路线,有助于推动国产软硬件生态走向协同成熟。

值得关注的是,随着模型训练范式从“扩大参数、扩大数据”转向“推理能力增强、训练流程复杂化”,新的技术门槛正在形成。

科大讯飞表示,2025年以来围绕国产算力训练又攻克两项关键难题:其一,在长思维链强化学习方面,将深度推理训练效率(对标A800)从30%提升至84%以上;其二,在MoE模型全链路训练方面,将效率从2025年3月的30%提升至93%,实现国产算力平台在相关领域“从0到1”的突破。

刘庆峰据此表示,在国内主流大模型中,讯飞星火是基于全国产算力训练的通用大模型,并判断随着底层能力持续提升,训练成本仍有较大下降空间。

对策层面,业内普遍认为,走向自主可控与高效算力并非单点突破即可完成,而是需要“软硬件协同+工程化体系+应用牵引”三位一体:一方面,持续完善国产算力的网络互联、算子库与编译链条,形成更稳定的性能释放;另一方面,围绕训练、微调、推理、评测与安全对齐建立标准化流程,提高工程复用率;同时,以场景落地牵引技术迭代,通过真实业务约束反向推动模型能力、成本与可靠性的平衡优化。

企业层面的探索如果能够与产业链形成联动,将更有利于构建开放、多元、可持续的生态体系。

前景判断上,大模型产业正从“比参数、比榜单”转向“比效率、比应用、比韧性”。

全国产算力路线的突破若能持续兑现为稳定的训练效率和可控成本,将有望在更长周期内释放竞争优势:既为模型迭代提供确定性供给,也为规模化推理服务提供成本空间。

随着数据要素配置、算力基础设施建设与行业数字化转型同步推进,国产大模型在更多关键行业的落地速度有望进一步加快,但仍需在生态完善、工具链成熟、评测体系与安全合规等方面持续投入,避免“能力跃升”与“落地难”之间出现新的断层。

这场静悄悄的"算力革命"揭示了一个深层规律:核心技术攻关没有捷径,唯有在"卡脖子"处持续发力,才能筑牢数字经济发展的基石。

当更多企业选择"从底层向上生长"的创新路径时,中国人工智能产业的自主可控之路必将越走越宽广。