词元是大模型为省事，把数据给拆分成最小的信息块，一个字也好一个词也罢，甚至一个符号都行

3月25日，央视新闻放了个大招，专家们在节目里专门解答了啥叫“词元”。原来，词元就是大模型为了省事，把数据给拆分成最小的信息块，一个字也好，一个词也罢，甚至一个符号都行。张向宏，也就是国家数据局的专家咨询委员会委员，还有蔡驰宇，也就是国家发展改革委国家信息中心人工智能处的工程师，他们都在节目里现身说法。张向宏直接给大伙算了笔账，说现在咱们国家每天用的Token，也就是词元的数量已经过了140万亿这个大关。这140万亿到底有多大呢？换算下来差不多相当于1000万亿个中文词，又或者是把250个中国国家图书馆的资源都给搬空了。蔡驰宇紧接着也分析说，词元这玩意儿这么火，充分说明AI不光是在实验室里折腾了，它早已经跑到各行各业和千家万户去了。现在AI就像水和电一样，成了咱们智能社会赖以运转的基础资源。词元消耗量其实就是衡量AI产业发展的一个“晴雨表”。国家数据局那边也透露了，现在基于词元计费的新路子正在火速跑通。蔡驰宇还打了个比方说，以前企业要用信息服务，得先买软件；现在不一样了，企业直接调用大模型的接口，用多少词元就付多少钱，变得更灵活也更方便。不过这事儿也不是完全没麻烦，毕竟词元消耗得越多，对电的需求也就越高。今年的政府工作报告里不是专门提到要搞算电协同嘛？张向宏就说了这事儿的核心要义：咱们国家的绿电优势特别明显，得用它来养算力和AI产业。说到底就是把国家能源转型的红利给利用起来，推动产业升级。