为什么要把token翻译成“词元”？

大家都在讨论Token这个词的中文翻译到底是什么。从2017年开始，很多学者就在论文里把Token翻译成“词元”。不过我觉得这个翻译太老气了，根本没办法让它在中国文化里长久下去。因为Token不光用在语言模型里，在语音和图像模型中，也会涉及到Token的消耗问题。语音是一连串的数字，图像则是一个个像素点，哪来的词呢？所以用“词元”来翻译就不准确了。“词元”这个词只侧重于“信”，也就是把中文含义尽可能地覆盖原意，这是很多类似翻译的通病，比如语素、语元、词根还有算元。但这些翻译都是一样的毛病：不够准确，而且词义概念不够孤立，容易和其他概念混淆。有人想把Token翻译成“头肯”，这纯粹是个中式音译。“卡拉OK”原本的意思是无人乐队，这个翻译就很成功。因为它是个新造的词汇，而音译只是新造的手段之一。但是现在英语在中国已经非常普及了，你在日常生活中到处都能看到英文字母。如果强行把Token翻译成“头肯”，这种行为就像是我已经习惯用右手写字，你非要让我学会左手写字一样别扭。就算大家听到这个词汇不习惯，也不是最主要的问题。最主要的是英语在中国已经非常普及了。我们习惯了使用AI这个词，连“人工智能”这个词出现的频率都降低了。换句话说，现在把Token音译成“头肯”，这个时间窗口已经过去了。就像鲁棒性这个词一样难听怪异，明明有“稳健性”这样的替代品。但是因为它出现得早又刚好赶上社会对这个词比较陌生的时候，所以沿用至今。现在的Token已经被社会大众当成一种计数单位了，而不是AI里面的技术名词。普通人就当作AI智能的消耗量，这里包括语言、语音、图像甚至视频。计电量消耗我们用度和瓦表示，计网络流量消耗我们用GB、MB和兆来表示。但是在AI智能消耗量这里我们还没有一个统一的单位来表示。所以最好的情况就是不翻译Token这个词，保持原样。如果一定要翻译的话会感觉很别扭。比如我开发软件用了3M token ，或者是我这个月做AI辅助绘画花了4G词元这样的话听起来都很奇怪。现在社会上绝大多数50岁以下的人都接受过英语教育的情况下就保留原样就是最好的效果。我也看到各路大学教授和专家推荐翻译成算元、模元、智元还有筹。说实话这些推荐都没人在意。未来可能会出现 MT 这个单位表示M token 的表达来指明AI用量，但是何必强行把Token翻译成中文呢？