“Token”规范译名统一为“词元”——夯实大模型基础术语体系促产业有序发展

近年来,随着大语言模型技术的快速发展,"Token"这个基础概念模型训练、推理和计费中频繁出现;然而,该术语的中文译名长期存在不统一现象,有的使用"令牌",有的采用"标记""分词块"或"子词"等不同称谓。这种混乱不仅影响学术表达的严谨性,也给产品说明、服务计费和公众理解带来困扰。特别是在网络安全、区块链等领域,"token"已有特定含义,继续增加了跨领域交流中的误解风险。 造成术语混乱的原因主要有三点:首先,技术体系快速跨学科扩散,往往先应用后规范;其次,"Token"在不同技术场景中含义不同,在身份认证中指访问凭证,在数字资产领域指代币或通证,而在大语言模型中则指文本处理的基本单元;最后,这一概念涉及模型训练、推理、服务计量等多个环节,缺乏统一术语会增加沟通成本。 为此,全国科学技术名词审定委员会审定、国家数据局正式确认"Token"的标准中文名为"词元"。"词元"是大模型处理文本及多模态信息的最小可计算单元,其特点是粒度不固定,可能对应一个汉字、词语、标点符号或特定符号序列。在实际应用中,模型会将输入内容拆解为"词元"序列,再转换为数值进行计算。 术语统一具有多重意义:提升技术传播和科普质量;促进行业协作与标准化;提高计量与计费透明度;推动多模态技术统一表达。当前许多服务以"词元"数量计费,统一术语有助于明确计费标准。 业内人士建议从三上推进术语落地:在科研论文、教材等材料中优先使用"词元";服务页面应明确词元统计方式;在不同领域使用相应术语,如网络安全领域继续使用"令牌",大模型领域统一用"词元"。 随着AI产业从技术展示走向规模应用,基础术语的统一将成为重要前提。"词元"涉及的的统计口径、成本核算等将逐步与行业标准衔接。未来,"词元"作为最小可计算单元的应用范围还将继续扩展。

术语标准化是技术成熟的重要标志。"词元"国家标准的出台不仅解决了概念混乱问题,更表明了我国在基础研究领域的系统布局。在数字化转型加速的今天,规范的术语体系将成为推动高质量发展的重要基础。