Soul AI团队这次搞出了个大事儿,给App搞了个零样本歌声合成的大招,把AI、App、Eval、Face、FlashTalk、Flow、GMO、GMO-SVS、GitHub、Hugging、Lab、MIDI、Matching、Melody、Music这些技术都串起来了。 以前大家觉得唱歌这事太复杂,得有个专门的人才能干,SoulX-Singer打破了这个僵局。他们和吉利汽车研究院、天津大学还有西北工业大学联手,搞了个基于Flow Matching的技术,直接把歌声合成变成了音频补全的任务。这个模型特别聪明,不仅能精确控制音高、旋律这些细节,还能搞定歌词、旋律和发声之间的关系。 最牛的是它能在没见过的新歌手身上也能表现得像模像样。靠着42000多小时的高质量数据训练,模型覆盖了普通话、英语和粤语这三种语言。不管是原创音乐还是翻唱风格迁移,它都能轻松搞定。有了Music Score和Melody这两种控制模式,整个音乐创作的流程就通了。 数据评测也挺狠的。在GMO-SVS和SoulX-Singer-Eval这两个数据集上看,无论是语义清晰度还是歌手相似度,SoulX-Singer都把其他开源方案甩在了后面。尤其是在完全没见过的歌手上测试的时候,效果也非常稳。 这次开源也是延续了Soul AI团队的一贯作风。他们之前就把播客合成和实时数字人模型给放出来了。现在代码、权重都在GitHub和Hugging Face上面了,全球的开发者都能直接用。研发团队说还会继续升级模型,让更多的语言和风格进来。 这事儿对专业音乐人来说是个好帮手,也给普通用户提供了参与音乐创作的新路子。这标志着AI音乐生成技术从以前的“技术演示”变成了实实在在的“工业应用”,往实用化和普惠化的方向又走了一大步。