3月25日,央视新闻放了个大招,专家们在节目里专门解答了啥叫“词元”。原来,词元就是大模型为了省事,把数据给拆分成最小的信息块,一个字也好,一个词也罢,甚至一个符号都行。张向宏,也就是国家数据局的专家咨询委员会委员,还有蔡驰宇,也就是国家发展改革委国家信息中心人工智能处的工程师,他们都在节目里现身说法。 张向宏直接给大伙算了笔账,说现在咱们国家每天用的Token,也就是词元的数量已经过了140万亿这个大关。这140万亿到底有多大呢?换算下来差不多相当于1000万亿个中文词,又或者是把250个中国国家图书馆的资源都给搬空了。蔡驰宇紧接着也分析说,词元这玩意儿这么火,充分说明AI不光是在实验室里折腾了,它早已经跑到各行各业和千家万户去了。现在AI就像水和电一样,成了咱们智能社会赖以运转的基础资源。 词元消耗量其实就是衡量AI产业发展的一个“晴雨表”。国家数据局那边也透露了,现在基于词元计费的新路子正在火速跑通。蔡驰宇还打了个比方说,以前企业要用信息服务,得先买软件;现在不一样了,企业直接调用大模型的接口,用多少词元就付多少钱,变得更灵活也更方便。不过这事儿也不是完全没麻烦,毕竟词元消耗得越多,对电的需求也就越高。 今年的政府工作报告里不是专门提到要搞算电协同嘛?张向宏就说了这事儿的核心要义:咱们国家的绿电优势特别明显,得用它来养算力和AI产业。说到底就是把国家能源转型的红利给利用起来,推动产业升级。