国内首张大模型高阶通用能力国标测试证书落地发放 评测标准化迈出关键一步

行业痛点催生标准体系 当前,全球人工智能产业普遍面临核心评测标准缺失的问题。企业各自搭建评估体系,容易造成技术路线分散、产品难以互认。据国际数据公司(IDC)统计,2024年我国大模型研发投入超过200亿元,但超过60%的企业反馈缺少统一的能力评估框架。这不仅拖慢技术迭代,也抬高了产业协同成本。 国家标准构建评测基石 针对该瓶颈,中国电子技术标准化研究院于2025年9月启动“求索”专项,以GB/T 45288.2-2025国家标准为依据,建立涵盖三大维度的评估体系:深度推理能力设置数学证明、金融预测等12类场景测试;代码应用覆盖5种编程环境的生成与优化;多模态交互包含视频行为分析等9项任务。测试引入动态加权算法,提升不同规模模型对比的公平性。 国产技术实现多维突破 获证单位中国电信展示了全栈自主创新能力:其星辰语义大模型基于国产万卡集群研发,攻克长稳训练关键技术,集群利用率达98%,较国际主流方案提升15个百分点。最新开源的TeleChat3-105B模型采用混合专家架构(MoE),MMLU-Pro知识测评中准确率达82.3%,较前代提升11.2%。该模型开源6周下载量达到50万次,形成从芯片、框架到应用的技术闭环。 产业影响持续释放 此次认证体现出三上示范效应:一是为技术演进提供参考,头部企业已据此调整约30%的研发资源;二是降低中小企业评估成本,预计可将产品上市周期缩短40%;三是提升国际对接能力,标准中7项指标已被IEEE纳入跨国互认体系。工信部数据显示,2025年我国大模型市场规模将突破800亿元,标准化建设有望推动产业向集约化发展。 前瞻布局培育新质生产力 专家认为,下一步应加快完善“检测—认证—应用”的衔接链条。北京人工智能创新中心负责人表示:“计划在2026年前建成覆盖200个场景的测试数据库,推动标准在医疗、制造等领域落地。”同时,人才认证体系也在推进,首批200名测评工程师已完成资质培训。

大模型高阶通用能力测试证书的颁发,标志着我国大模型产业进入以标准化评测为支撑的新阶段。行业从各自为战走向统一尺度——从技术验证走向产业化规范——体现出产业体系的逐步成熟。星辰语义大模型作为首个获证产品,既展示了国产大模型的技术能力,也反映出自主创新的持续投入。随着评测标准的推广应用,有望继续降低协作成本、提升创新效率,推动我国人工智能产业向更高质量、更规范的方向发展,为经济社会发展提供新动能。