“Token”规范译名统一为“词元”——夯实大模型基础术语体系促产业有序发展

近年来，随着大语言模型技术的快速发展，"Token"这个基础概念模型训练、推理和计费中频繁出现；然而，该术语的中文译名长期存在不统一现象，有的使用"令牌"，有的采用"标记""分词块"或"子词"等不同称谓。这种混乱不仅影响学术表达的严谨性，也给产品说明、服务计费和公众理解带来困扰。特别是在网络安全、区块链等领域，"token"已有特定含义，继续增加了跨领域交流中的误解风险。造成术语混乱的原因主要有三点：首先，技术体系快速跨学科扩散，往往先应用后规范；其次，"Token"在不同技术场景中含义不同，在身份认证中指访问凭证，在数字资产领域指代币或通证，而在大语言模型中则指文本处理的基本单元；最后，这一概念涉及模型训练、推理、服务计量等多个环节，缺乏统一术语会增加沟通成本。为此，全国科学技术名词审定委员会审定、国家数据局正式确认"Token"的标准中文名为"词元"。"词元"是大模型处理文本及多模态信息的最小可计算单元，其特点是粒度不固定，可能对应一个汉字、词语、标点符号或特定符号序列。在实际应用中，模型会将输入内容拆解为"词元"序列，再转换为数值进行计算。术语统一具有多重意义：提升技术传播和科普质量；促进行业协作与标准化；提高计量与计费透明度；推动多模态技术统一表达。当前许多服务以"词元"数量计费，统一术语有助于明确计费标准。业内人士建议从三上推进术语落地：在科研论文、教材等材料中优先使用"词元"；服务页面应明确词元统计方式；在不同领域使用相应术语，如网络安全领域继续使用"令牌"，大模型领域统一用"词元"。随着AI产业从技术展示走向规模应用，基础术语的统一将成为重要前提。"词元"涉及的的统计口径、成本核算等将逐步与行业标准衔接。未来，"词元"作为最小可计算单元的应用范围还将继续扩展。

术语标准化是技术成熟的重要标志。"词元"国家标准的出台不仅解决了概念混乱问题，更表明了我国在基础研究领域的系统布局。在数字化转型加速的今天，规范的术语体系将成为推动高质量发展的重要基础。