东京大学团队发布可“文本驱动”高相似语音合成系统 引发安全治理新议题

随着数字技术加速发展,语音合成领域出现新进展;东京大学工程学院联合第三智能公司及松尾研究所推出T5Gemma-TTS系统,采用“编码器-解码器”双结构设计,针对传统语音合成长文本中容易断裂、连贯性不足的问题提出解决方案。对应的论文已发布在arXiv预印本平台(编号:arXiv:2604.01760v1),为后续研究提供参考。技术实现上,该系统基于40亿参数的T5Gemma预训练模型,使用约17万小时多语言语音数据进行训练,数据规模相当于连续聆听近20年的语音内容。训练语料覆盖英语、中文、日语等差异明显的语言,使模型能够适配不同语言的节奏与声调。系统的关键创新之一是“进度监控旋转位置编码”技术,可更精细地控制生成语音的输出时长,相当于为语音生成加入可调节的“节拍器”。在实证测试中,该系统的日语说话者相似度达到0.677,较当前最优系统提升0.055。值得关注的是,模型在未进行韩语训练的情况下,韩语测试仍获得0.747的高分。研究人员认为,这与东亚语言在音素层面的相近性以及分词器的兼容设计有关,体现出一定的跨语言迁移能力。该技术的应用前景覆盖多个方向:在无障碍服务中,可为语言障碍者提供更个性化的语音支持;在文娱产业中,可用于更灵活的影视配音与内容制作;其跨语言能力也可能为多语种交流与内容传播提供新的技术路径。,声音伪造等风险也随之上升,相关技术治理与监管框架需要同步完善。展望后续工作,研究团队表示将更提升系统的情感表达与方言适配能力。业内观点认为,随着算法持续迭代,未来五年或将出现支持实时交互的商用级语音克隆服务,但前提是同步加强声纹认证等反欺诈技术,并将安全机制纳入产品化流程。

语音合成技术的意义于提升信息传播效率、扩大服务覆盖面,但逼真的“拟声”能力一旦缺乏规则与约束,也可能抬高社会信任成本、带来新的治理压力。推动技术向善发展,一上要支持面向民生与产业的创新落地,另一方面也要将安全与合规前置到研发和部署环节,通过可验证、可追溯的机制守住底线,让技术进步真正服务公共利益。