当前,大模型技术已成为人工智能发展的战略高地,但行业长期面临高阶能力评测缺乏统一标准的困境。
不同机构采用各异的评测方法和指标体系,导致大模型性能对比难以科学量化,制约了产业有序竞争和技术进步。
此次国内首张高阶通用能力测试证书的颁发,正是为破解这一行业痛点而采取的重要举措。
为解决大模型评测标准化问题,中国电子技术标准化研究院于2025年9月启动了"求索"大模型高阶通用能力测试工作。
该测试工作立足产业实际需求,将评测范围聚焦于复杂逻辑处理、代码应用实践、多模态交互等核心应用场景,构建了系统完整的评测框架。
具体包括深度推理与复杂问题求解(涵盖数学推理、图表推理)、代码理解与生成(涵盖意图优化、多语言代码生成)、多模态理解与生成(涵盖行为识别、视频问答、文本生成视频等)三大维度,形成了全方位的评测体系。
评测工作严格遵循国家标准GB/T 45288.2-2025《人工silon智能 第2部分:评测指标与方法》,通过建立科学量化的指标体系,确保评测结果具有权威性、公正性和可比性。
这一标准化路径为行业提供了清晰的技术发展导向,有利于引导大模型企业聚焦核心能力建设,推动产业向高质量方向发展。
获得首张测试证书的中国电信星辰语义大模型,代表了我国大模型自主创新的重要成果。
该模型系中国电信自主研发,依托国产算力与训练框架实现,是国内唯一全国产、全尺寸、全开源的基础大模型。
在模型训练过程中,研发团队攻克了国产万卡集群长稳训练的技术难题,实现了国产万卡集群98%的利用率,训练效能相比英伟达同等算力达到93%,充分展现了国产技术的竞争力。
从模型能力表现看,星辰语义大模型已发展到较为成熟的阶段。
2025年上半年推出的TeleChat2.5系列35B、115B模型综合能力表现突出;2025年12月开源的TeleChat3-105B是国内首个全国产化训练的千亿参数细粒度MoE模型,同步开源的稠密参数模型TeleChat3-36B在MMLU-Pro、Math-500等多项权威评测基准中位列同等规模参数开源模型TOP3。
这些成绩充分说明,我国大模型技术已具备与国际先进水平相当的能力。
模型的市场认可度不断提升。
开源社区累计下载量超过50万次,充分反映了业界对其技术方案的认可。
同时,该模型还获得了中国通信学会《2024年度十大科技进展》、2025世界人工智能大会卓越人工智能引领者奖(SAIL奖)等多项权威荣誉,进一步确立了其在行业中的领先地位。
此次测试证书的颁发具有多方面的深远意义。
从产业角度看,标准化的评测体系有利于规范市场秩序,引导企业理性竞争;从技术角度看,清晰的评测指标为研发团队指明了努力方向;从用户角度看,权威的测试认证为大模型选型提供了可信参考。
这标志着我国大模型产业正在从野蛮生长向规范发展转变,产业生态日趋完善。
这张证书的颁发不仅是技术认证的里程碑,更是我国科技自立自强战略在人工智能领域的具体实践。
当标准化建设与自主创新形成双轮驱动,中国人工智能产业正从"跟跑"向"领跑"加速转型。
未来,随着更多企业参与国标认证,如何保持标准的前瞻性与包容性,平衡技术创新与安全伦理,将成为行业持续健康发展的新课题。