国内首张大模型高阶通用能力国标符合性证书落地释放产业规范化信号

当前，大模型技术已成为人工智能发展的战略高地，但行业长期面临高阶能力评测缺乏统一标准的困境。

不同机构采用各异的评测方法和指标体系，导致大模型性能对比难以科学量化，制约了产业有序竞争和技术进步。

此次国内首张高阶通用能力测试证书的颁发，正是为破解这一行业痛点而采取的重要举措。

为解决大模型评测标准化问题，中国电子技术标准化研究院于2025年9月启动了"求索"大模型高阶通用能力测试工作。

该测试工作立足产业实际需求，将评测范围聚焦于复杂逻辑处理、代码应用实践、多模态交互等核心应用场景，构建了系统完整的评测框架。

具体包括深度推理与复杂问题求解（涵盖数学推理、图表推理）、代码理解与生成（涵盖意图优化、多语言代码生成）、多模态理解与生成（涵盖行为识别、视频问答、文本生成视频等）三大维度，形成了全方位的评测体系。

评测工作严格遵循国家标准GB/T 45288.2-2025《人工silon智能第2部分：评测指标与方法》，通过建立科学量化的指标体系，确保评测结果具有权威性、公正性和可比性。

这一标准化路径为行业提供了清晰的技术发展导向，有利于引导大模型企业聚焦核心能力建设，推动产业向高质量方向发展。

获得首张测试证书的中国电信星辰语义大模型，代表了我国大模型自主创新的重要成果。

该模型系中国电信自主研发，依托国产算力与训练框架实现，是国内唯一全国产、全尺寸、全开源的基础大模型。

在模型训练过程中，研发团队攻克了国产万卡集群长稳训练的技术难题，实现了国产万卡集群98%的利用率，训练效能相比英伟达同等算力达到93%，充分展现了国产技术的竞争力。

从模型能力表现看，星辰语义大模型已发展到较为成熟的阶段。

2025年上半年推出的TeleChat2.5系列35B、115B模型综合能力表现突出；2025年12月开源的TeleChat3-105B是国内首个全国产化训练的千亿参数细粒度MoE模型，同步开源的稠密参数模型TeleChat3-36B在MMLU-Pro、Math-500等多项权威评测基准中位列同等规模参数开源模型TOP3。

这些成绩充分说明，我国大模型技术已具备与国际先进水平相当的能力。

模型的市场认可度不断提升。

开源社区累计下载量超过50万次，充分反映了业界对其技术方案的认可。

同时，该模型还获得了中国通信学会《2024年度十大科技进展》、2025世界人工智能大会卓越人工智能引领者奖（SAIL奖）等多项权威荣誉，进一步确立了其在行业中的领先地位。

此次测试证书的颁发具有多方面的深远意义。

从产业角度看，标准化的评测体系有利于规范市场秩序，引导企业理性竞争；从技术角度看，清晰的评测指标为研发团队指明了努力方向；从用户角度看，权威的测试认证为大模型选型提供了可信参考。

这标志着我国大模型产业正在从野蛮生长向规范发展转变，产业生态日趋完善。

这张证书的颁发不仅是技术认证的里程碑，更是我国科技自立自强战略在人工智能领域的具体实践。

当标准化建设与自主创新形成双轮驱动，中国人工智能产业正从"跟跑"向"领跑"加速转型。

未来，随着更多企业参与国标认证，如何保持标准的前瞻性与包容性，平衡技术创新与安全伦理，将成为行业持续健康发展的新课题。