国家数据局刚开完新闻发布会,在3月24日这次活动中,他们说了个特别亮眼的数字:到今年3月,中国的日均Token调用量已经飙到了140万亿。跟2024年初的1000亿比起来,这增长速度快得吓人,翻了1000多倍。就算是跟2025年底的100万亿比,短短三个月里也增长了40%多。 这么大的增长量说明啥?中国的人工智能现在真的是进入了快车道。为啥这么猛?因为大家都在疯狂调用这些数据,智能助手在干日常的活,产业端在做智能分析,全得靠海量高质量的数据顶着。国家数据局为了这事也是拼了,专门拿出100万亿来支持高质量数据集的建设。 到2025年底,全国建成的高质量数据集已经超过了10万个。这是啥概念?大概相当于中国国家图书馆数字资源总量的310倍左右。这背后的努力也不小,他们联合了26个部门,把72家高质量数据集建设链主单位、140个先行先试单位和104个典型案例都给推了出来。形成了一个大家一起搞、大家一起赢的生态。 为了让数据标注产业也动起来,他们在成都、沈阳、合肥、长沙、海口、保定、大同这7个城市布了局。出台了《关于促进数据标注产业高质量发展的实施意见》,还挑出了47个优秀案例,专门组织了7次供需对接会。 下一步打算怎么干?国家数据局要往科技创新强、基础好的地方去布点。重点是“知识密集型”和“技术驱动型”这两个方向,再分梯次弄一批试验田。同时还得让大家慢慢习惯“为高质量数据付费”,把这些数据集都挂到数据交易所去卖。 那个市场现在的共识还在培育中,得支持流通服务平台和数据商多搞点新模式。这样供需才能接上,数据集才能真的流动起来。 这次国家数据局局长刘烈宏还特意提到了一个词叫AI-Ready。就是说要让高质量数据集具备AI就绪度。接下来要开展六大专项行动:强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放。 除了数据局自己发力,工信部那边也在配合。他们最近印发了通知搞工业数据筑基行动。后续咋办?工信部信息技术发展司司长王彦青说了三条路:一是加强支撑保障;二是强化政策引导;三是培育良好生态。 特别是在今年马上要开的峰会上,工信部还要搞个数据要素赋能新型工业化的专题会议。还会邀请先行先试的单位来分享经验。另外他们还要启动2026年的数据要素赋能大赛。 咱们再看这个增长的势头多猛!到2025年年底就能建成10万个高质量数据集。现在光是日均Token的调用量就突破了140万亿。 这个量到底有多大?可以这么算一下:如果把这个数据堆起来大概有890PB(计算机存储容量单位)。这么多的数据堆积起来相当于中国国家图书馆数字资源总量的310倍左右。 这种快速增长其实也标志着数据集的供给在大量增加。数据要素的价值正在不断释放。现在讨论的“Token出海”就是产业竞争力增强的一个标志。 这说明中国人工智能产业的竞争力显著增强了。现在大家热议的话题就是这个“Token出海”。 从数据的维度来看也标志着数据集的供给在大量增加。数据要素赋能人工智能创新发展进入了良性互动的阶段。 接下来国家数据局还得继续深入实施新一轮的高质量数据集建设行动计划。以场景需求为牵引来打造那些实用又质量有保障的高质量数据集。 最后咱们来梳理一下这些数字:到2025年年底建成10万个高质量数据集;日均Token调用量超过140万亿;相比2024年初的1000亿增长1000多倍;相比2025年底的100万亿三个月内增长40%多;遴选了72家高质量数据集建设链主单位和140个先行先试工作单位以及104个典型案例;布局了成都等7个承担数据标注先行先试建设任务的城市;遴选出47个数据标注优秀案例;指导举办了7次数据标注的供需对接会;明年2026年还要启动大赛;工信部要主办专题会议并邀请先行先试单位分享经验;工信部还要联合地方做好对先行先试联合体的资源保障和指导支持等等。 这些就是这次发布会的主要内容啦!