阿里通义实验室推出两款语音生成模型，自然语言指令驱动声音创作

问题——语音内容生产门槛高与表达控制不足并存。随着短视频、有声读物、线教育、智能客服等场景快速扩张，市场对“更像真人、更可控、更快速”的语音合成提出更高要求。传统流程往往依赖专业配音或复杂参数调音，跨语种迁移、长文本稳定朗读以及情绪与语气的精细呈现仍是行业痛点；同时，沉浸式内容对环境音、空间混响、设备质感等“整体听觉世界”的塑造需求也在增加。原因——需求侧增长与技术迭代共同推动“指令化生成”。一上，内容规模化生产需要更易用的工具，“一句话描述就能生成”成为降低门槛的重要方向；另一方面，语音大模型在指令跟随、强化学习优化、端到端生成等环节持续进步，使语气、音高、语速等细粒度控制从专业参数逐步转向自然语言表达。因此，通义实验室发布的两款模型以“自由式指令”为入口，分别瞄准“可控合成”和“场景化音频设计”两类核心需求。影响——从“会说话”走向“会表演、会置景”，应用边界有望继续拓展。通义实验室介绍，Fun-CosyVoice3.5在指令控制的语音合成上实现升级，用户可直接用自然语言描述表达方式，例如要求更坚定的语气、降低音调或放慢语速等，模型据此生成相应的声音表现。该模型新增泰语、印尼语、葡萄牙语、越南语等语种，并在多语种识别错误率、说话人相似度等客观指标上保持较好水平。针对生僻字、复杂语句等易出错场景，模型通过专项优化降低误读比例，并提升复杂文本与长文本朗读的连贯性与稳定性；在性能上，通过分帧与时延优化降低首包等待时间，更适合实时交互场景。与之侧重点不同，Fun-AudioGen-VD更强调“声音设计能力”，可按文字描述生成目标音色、情绪状态与完整听觉场景，覆盖性别、年龄、口音、音质特征、情绪表达、角色设定以及更细腻的心理状态刻画等，并支持叠加城市、咖啡馆、战场等环境音，模拟大教堂、金属空间、水下等混响效果，还可呈现老式广播、对讲机等设备质感，甚至根据描述实现动态环境变化。业内人士认为，这类能力更适配游戏、影视预演、互动叙事、虚拟人内容、播客包装等对氛围与场景感要求更高的领域。对策——加速落地的同时完善规范使用与风控体系。语音生成与音色复刻能力提升，将明显降低制作成本、提高内容迭代效率，但也可能带来声音冒用、深度伪造等风险。面向产业化应用，建议一是完善授权与审计机制，建立音色使用的确权、授权、留痕与追溯流程；二是推动水印与检测技术配套，在生成端与分发端同步强化识别能力；三是明确行业应用边界，在客服、金融、政务等高敏场景引入更严格的身份核验与合规审查；四是加强未成年人保护与个人信息保护，避免未经许可的声音采集与训练使用。只有技术创新与治理体系同步推进，语音生成的产业价值才能更稳妥地释放。前景——多语种与场景化将成为下一阶段竞争焦点。随着跨语种内容传播加快、全球化业务需求上升，多语种覆盖与本地化表达将持续重要；同时，用户对“像真人一样自然”的要求将从单句表现延伸到长时程一致性，包括稳定的人设、连贯的情绪曲线与更真实的环境互动。未来，语音生成或将与文本、图像、视频等生产链条进一步打通，从脚本撰写、角色设定到音频制作形成更高效的一体化工作流，为文化内容出海与数字内容产业升级提供支撑。

此次技术创新表明了我国在语音合成领域的持续积累，也预示着人机交互正在进入新的阶段。当机器能够理解并再现人类情感的细微变化，我们或许正在接近重新定义“声音”的边界。未来，这项技术如何在守住伦理与安全底线的前提下更好服务社会发展，仍需业界持续探索。