东京大学团队发布可“文本驱动”高相似语音合成系统引发安全治理新议题

随着数字技术加速发展，语音合成领域出现新进展；东京大学工程学院联合第三智能公司及松尾研究所推出T5Gemma-TTS系统，采用“编码器-解码器”双结构设计，针对传统语音合成长文本中容易断裂、连贯性不足的问题提出解决方案。对应的论文已发布在arXiv预印本平台（编号：arXiv:2604.01760v1），为后续研究提供参考。技术实现上，该系统基于40亿参数的T5Gemma预训练模型，使用约17万小时多语言语音数据进行训练，数据规模相当于连续聆听近20年的语音内容。训练语料覆盖英语、中文、日语等差异明显的语言，使模型能够适配不同语言的节奏与声调。系统的关键创新之一是“进度监控旋转位置编码”技术，可更精细地控制生成语音的输出时长，相当于为语音生成加入可调节的“节拍器”。在实证测试中，该系统的日语说话者相似度达到0.677，较当前最优系统提升0.055。值得关注的是，模型在未进行韩语训练的情况下，韩语测试仍获得0.747的高分。研究人员认为，这与东亚语言在音素层面的相近性以及分词器的兼容设计有关，体现出一定的跨语言迁移能力。该技术的应用前景覆盖多个方向：在无障碍服务中，可为语言障碍者提供更个性化的语音支持；在文娱产业中，可用于更灵活的影视配音与内容制作；其跨语言能力也可能为多语种交流与内容传播提供新的技术路径。，声音伪造等风险也随之上升，相关技术治理与监管框架需要同步完善。展望后续工作，研究团队表示将更提升系统的情感表达与方言适配能力。业内观点认为，随着算法持续迭代，未来五年或将出现支持实时交互的商用级语音克隆服务，但前提是同步加强声纹认证等反欺诈技术，并将安全机制纳入产品化流程。

语音合成技术的意义于提升信息传播效率、扩大服务覆盖面，但逼真的“拟声”能力一旦缺乏规则与约束，也可能抬高社会信任成本、带来新的治理压力。推动技术向善发展，一上要支持面向民生与产业的创新落地，另一方面也要将安全与合规前置到研发和部署环节，通过可验证、可追溯的机制守住底线，让技术进步真正服务公共利益。

东京大学团队发布可“文本驱动”高相似语音合成系统 引发安全治理新议题

东京大学团队发布可“文本驱动”高相似语音合成系统引发安全治理新议题