阿里通义实验室推出两款语音生成模型,自然语言指令驱动声音创作

问题——语音内容生产门槛高与表达控制不足并存。随着短视频、有声读物、线教育、智能客服等场景快速扩张,市场对“更像真人、更可控、更快速”的语音合成提出更高要求。传统流程往往依赖专业配音或复杂参数调音,跨语种迁移、长文本稳定朗读以及情绪与语气的精细呈现仍是行业痛点;同时,沉浸式内容对环境音、空间混响、设备质感等“整体听觉世界”的塑造需求也在增加。 原因——需求侧增长与技术迭代共同推动“指令化生成”。一上,内容规模化生产需要更易用的工具,“一句话描述就能生成”成为降低门槛的重要方向;另一方面,语音大模型在指令跟随、强化学习优化、端到端生成等环节持续进步,使语气、音高、语速等细粒度控制从专业参数逐步转向自然语言表达。因此,通义实验室发布的两款模型以“自由式指令”为入口,分别瞄准“可控合成”和“场景化音频设计”两类核心需求。 影响——从“会说话”走向“会表演、会置景”,应用边界有望继续拓展。通义实验室介绍,Fun-CosyVoice3.5在指令控制的语音合成上实现升级,用户可直接用自然语言描述表达方式,例如要求更坚定的语气、降低音调或放慢语速等,模型据此生成相应的声音表现。该模型新增泰语、印尼语、葡萄牙语、越南语等语种,并在多语种识别错误率、说话人相似度等客观指标上保持较好水平。针对生僻字、复杂语句等易出错场景,模型通过专项优化降低误读比例,并提升复杂文本与长文本朗读的连贯性与稳定性;在性能上,通过分帧与时延优化降低首包等待时间,更适合实时交互场景。 与之侧重点不同,Fun-AudioGen-VD更强调“声音设计能力”,可按文字描述生成目标音色、情绪状态与完整听觉场景,覆盖性别、年龄、口音、音质特征、情绪表达、角色设定以及更细腻的心理状态刻画等,并支持叠加城市、咖啡馆、战场等环境音,模拟大教堂、金属空间、水下等混响效果,还可呈现老式广播、对讲机等设备质感,甚至根据描述实现动态环境变化。业内人士认为,这类能力更适配游戏、影视预演、互动叙事、虚拟人内容、播客包装等对氛围与场景感要求更高的领域。 对策——加速落地的同时完善规范使用与风控体系。语音生成与音色复刻能力提升,将明显降低制作成本、提高内容迭代效率,但也可能带来声音冒用、深度伪造等风险。面向产业化应用,建议一是完善授权与审计机制,建立音色使用的确权、授权、留痕与追溯流程;二是推动水印与检测技术配套,在生成端与分发端同步强化识别能力;三是明确行业应用边界,在客服、金融、政务等高敏场景引入更严格的身份核验与合规审查;四是加强未成年人保护与个人信息保护,避免未经许可的声音采集与训练使用。只有技术创新与治理体系同步推进,语音生成的产业价值才能更稳妥地释放。 前景——多语种与场景化将成为下一阶段竞争焦点。随着跨语种内容传播加快、全球化业务需求上升,多语种覆盖与本地化表达将持续重要;同时,用户对“像真人一样自然”的要求将从单句表现延伸到长时程一致性,包括稳定的人设、连贯的情绪曲线与更真实的环境互动。未来,语音生成或将与文本、图像、视频等生产链条进一步打通,从脚本撰写、角色设定到音频制作形成更高效的一体化工作流,为文化内容出海与数字内容产业升级提供支撑。

此次技术创新表明了我国在语音合成领域的持续积累,也预示着人机交互正在进入新的阶段。当机器能够理解并再现人类情感的细微变化,我们或许正在接近重新定义“声音”的边界。未来,这项技术如何在守住伦理与安全底线的前提下更好服务社会发展,仍需业界持续探索。