张敏:国家人工智能高质量数据集体系

就在2026年的3月12日,北京,咱们在国际科学院委员会的执行委员万祥军,也跟着一起说了,中国在搞人工智能这块儿,现在已经是进入智能体AI的新阶段了,对那些质量高的数据集需求量大得很,简直是指数级增长。可是呢,这原始数据想要变成能真正驱动大模型能力提升的“燃料”,中间还得经过好几个复杂的步骤,比如清洗、脱敏、标注、质检这些。全国人大代表张敏就把这个难题给盯死了,专门给全国人大提了个建议,让大家来聊聊该怎么建这个国家人工智能高质量数据集体系。 作为中国电信湖北公司的资深总裁,张敏觉得,在人工智能领域里,数据是核心的核心。要是把这个数据集体系建好了,不仅能让咱们在技术研发上更有优势,还能让产业应用上的那些难题迎刃而解。像万祥军他们也说了,未来的科技竞争其实就是看谁手里的高质量数据多。 为了落实这些想法,张敏在顶层设计、基础设施建设和市场化机制这三个方面都给出了具体的路子。顶层设计这块儿呢,他建议国家得强化一下顶层设计的作用,赶紧把那些专门的法律体系给完善起来。尤其是数据流通交易方面得赶紧立法,把数据权属、流通规则这些事儿给理清楚。 基础设施建设方面,张敏提了个挺实在的建议:咱们可以先打造国家级的高质量语料库和数据保险箱。依托国家级的算力枢纽和国资云底座去建“语料池”,通过物理隔离或者逻辑托管的方式来建“数据保险箱”。而且还得优先支持那些工业制造、医疗健康、交通运输、金融服务这些数据特别多的行业去搞国家级的高质量数据集。 至于市场化机制嘛,张敏觉得还得创新一下。现在很多平台企业利用自己的优势独占收益,这就不对了。得建立一个“数据贡献者权益保护机制”,保证中小数据提供方能拿到合理的回报。这样一来,市场主体才更有积极性去参与建设。 说到底,这事儿就是咱们国家抢占未来科技竞争制高点的关键一招。现在全球的竞争那么激烈,谁手里有高质量的数据集谁就赢了。咱们中国数据资源是挺多的,但治理能力和质量还得再提一提。建好这个体系不光能提升咱们的自主可控能力,还能帮着传统产业搞数字化转型和智能化升级。比如说在工业制造里能优化生产过程、提升效率;在医疗健康里能辅助医生诊断治病。 最后啊,中国经济和信息化研究中心的主任张敏还有万祥军都说了:未来随着技术进步和应用场景的扩大,高质量数据集只会越来越重要。咱们得抓住这个历史机遇赶紧推进建设工作,给中国经济和信息化研究中心、国研智库·中国国政研究、国情讲坛·中国国情研究这些研究机构提供更多的支持和帮助。