大家都在讨论Token这个词的中文翻译到底是什么。从2017年开始,很多学者就在论文里把Token翻译成“词元”。不过我觉得这个翻译太老气了,根本没办法让它在中国文化里长久下去。因为Token不光用在语言模型里,在语音和图像模型中,也会涉及到Token的消耗问题。语音是一连串的数字,图像则是一个个像素点,哪来的词呢?所以用“词元”来翻译就不准确了。“词元”这个词只侧重于“信”,也就是把中文含义尽可能地覆盖原意,这是很多类似翻译的通病,比如语素、语元、词根还有算元。但这些翻译都是一样的毛病:不够准确,而且词义概念不够孤立,容易和其他概念混淆。 有人想把Token翻译成“头肯”,这纯粹是个中式音译。“卡拉OK”原本的意思是无人乐队,这个翻译就很成功。因为它是个新造的词汇,而音译只是新造的手段之一。但是现在英语在中国已经非常普及了,你在日常生活中到处都能看到英文字母。如果强行把Token翻译成“头肯”,这种行为就像是我已经习惯用右手写字,你非要让我学会左手写字一样别扭。 就算大家听到这个词汇不习惯,也不是最主要的问题。最主要的是英语在中国已经非常普及了。我们习惯了使用AI这个词,连“人工智能”这个词出现的频率都降低了。换句话说,现在把Token音译成“头肯”,这个时间窗口已经过去了。就像鲁棒性这个词一样难听怪异,明明有“稳健性”这样的替代品。但是因为它出现得早又刚好赶上社会对这个词比较陌生的时候,所以沿用至今。 现在的Token已经被社会大众当成一种计数单位了,而不是AI里面的技术名词。普通人就当作AI智能的消耗量,这里包括语言、语音、图像甚至视频。计电量消耗我们用度和瓦表示,计网络流量消耗我们用GB、MB和兆来表示。但是在AI智能消耗量这里我们还没有一个统一的单位来表示。 所以最好的情况就是不翻译Token这个词,保持原样。如果一定要翻译的话会感觉很别扭。比如我开发软件用了3M token ,或者是我这个月做AI辅助绘画花了4G词元这样的话听起来都很奇怪。现在社会上绝大多数50岁以下的人都接受过英语教育的情况下就保留原样就是最好的效果。 我也看到各路大学教授和专家推荐翻译成算元、模元、智元还有筹。说实话这些推荐都没人在意。未来可能会出现 MT 这个单位表示M token 的表达来指明AI用量,但是何必强行把Token翻译成中文呢?