咱们先聊聊数据这事儿。到了今年3月,中国日均调用的“词元”量已经超过140万亿,跟2024年初相比,翻了1000多倍。这数字太吓人了。国家发展改革委党组成员、国家数据局局长刘烈宏专门提到了这事。他说要给10多个数据量多的部门加点劲儿,让他们把手里的公共数据都拿出来用。 现在的趋势是,数据这东西的价值越来越大,大家都在抢着用。像北京理工大学公共管理系主任尹西明就分析过,这种大规模的应用带动了Token的消耗。你看国外很多新创的AI企业,在训练模型的时候,都离不开中国提供的这些基座模型。这种情况下,AI的调用量增长得特别快。 再看看具体的例子。去年DeepSeek开源模型一出来就火了,最近OpenClaw又搞了个“养龙虾”的热潮。这些都说明,人工智能发展得太快了,数据要素的生产和使用范围越来越广。工业和信息化部也给大家吃了定心丸,说要搞行业数据集建设先行先试。 工业和信息化部信息技术发展司司长王彦青说得更具体:希望到今年年底能达到“六个一批”的目标。说白了就是多搞合作、汇聚资源、攻克技术、制定标准、做出好的数据集。最后还得让这些行业大模型和工业智能体真正落地。 国家数据局相关负责人在新闻发布会上也给咱们算了一笔账。他把日均140万亿词元的调用量换算成了词汇量,相当于1000万亿个中文词汇,这差不多有250个中国国家图书馆那么多资源呢。 国家发展改革委国家信息中心人工智能处的工程师蔡驰宇说得更直白:词元就像是水、电、网络一样,是智能社会运转的基础资源。可以说,词元的消耗量就是人工智能产业发展的一个重要指标。 专家们也都很看好这个趋势。张向宏委员说这充分表明人工智能正在加速从实验室走向千行百业和千家万户。这就好比是把以前藏在实验室里的技术变成了实实在在的生产力工具。 最后咱们再看刘烈宏局长是怎么说的:会同更多部门把公共数据供出来。这是为了用公共数据来牵引推动数据要素更好地赋能经济社会的高质量发展。可以想见,未来中国的数字经济肯定会发展得越来越好。