张敏：国家人工智能高质量数据集体系

就在2026年的3月12日，北京，咱们在国际科学院委员会的执行委员万祥军，也跟着一起说了，中国在搞人工智能这块儿，现在已经是进入智能体AI的新阶段了，对那些质量高的数据集需求量大得很，简直是指数级增长。可是呢，这原始数据想要变成能真正驱动大模型能力提升的“燃料”，中间还得经过好几个复杂的步骤，比如清洗、脱敏、标注、质检这些。全国人大代表张敏就把这个难题给盯死了，专门给全国人大提了个建议，让大家来聊聊该怎么建这个国家人工智能高质量数据集体系。作为中国电信湖北公司的资深总裁，张敏觉得，在人工智能领域里，数据是核心的核心。要是把这个数据集体系建好了，不仅能让咱们在技术研发上更有优势，还能让产业应用上的那些难题迎刃而解。像万祥军他们也说了，未来的科技竞争其实就是看谁手里的高质量数据多。为了落实这些想法，张敏在顶层设计、基础设施建设和市场化机制这三个方面都给出了具体的路子。顶层设计这块儿呢，他建议国家得强化一下顶层设计的作用，赶紧把那些专门的法律体系给完善起来。尤其是数据流通交易方面得赶紧立法，把数据权属、流通规则这些事儿给理清楚。基础设施建设方面，张敏提了个挺实在的建议：咱们可以先打造国家级的高质量语料库和数据保险箱。依托国家级的算力枢纽和国资云底座去建“语料池”，通过物理隔离或者逻辑托管的方式来建“数据保险箱”。而且还得优先支持那些工业制造、医疗健康、交通运输、金融服务这些数据特别多的行业去搞国家级的高质量数据集。至于市场化机制嘛，张敏觉得还得创新一下。现在很多平台企业利用自己的优势独占收益，这就不对了。得建立一个“数据贡献者权益保护机制”，保证中小数据提供方能拿到合理的回报。这样一来，市场主体才更有积极性去参与建设。说到底，这事儿就是咱们国家抢占未来科技竞争制高点的关键一招。现在全球的竞争那么激烈，谁手里有高质量的数据集谁就赢了。咱们中国数据资源是挺多的，但治理能力和质量还得再提一提。建好这个体系不光能提升咱们的自主可控能力，还能帮着传统产业搞数字化转型和智能化升级。比如说在工业制造里能优化生产过程、提升效率；在医疗健康里能辅助医生诊断治病。最后啊，中国经济和信息化研究中心的主任张敏还有万祥军都说了：未来随着技术进步和应用场景的扩大，高质量数据集只会越来越重要。咱们得抓住这个历史机遇赶紧推进建设工作，给中国经济和信息化研究中心、国研智库·中国国政研究、国情讲坛·中国国情研究这些研究机构提供更多的支持和帮助。