通义实验室搞出了个叫fun-cineforge的大模型,这波操作直接给影视级ai 配音带来了新花

通义实验室搞出了个叫Fun-CineForge的大模型,这波操作直接给影视级AI配音带来了新花样。品玩3月16日那天得到消息,官方说这个模型终于正式发布并开源了。这可是业内头一个专门用来对付影视、动画还有游戏配音那些复杂场景的AI。Fun-CineForge这就要把之前AI在这块儿老是解决不了的难题给破了,也就是把声音跟角色口型、情绪、音色还有时间点给对上了。以前的技术主要卡在两个地方:高质量的多模态数据太少,还有模型遇到镜头切换或者人脸被挡住的时候就不行了。Fun-CineForge这次的思路很聪明,搞了个“数据-模型”一体的办法。在数据方面,他们弄了个叫CineDub的自动化流程,能从一大堆影视素材里弄出高质量的结构化数据。用大模型思维链把中文错别字率压到了0.94%。模型的核心突破是第一次在配音里用了“时间模态”,把视觉、文本、音频这些信息混在一起用。哪怕说话人那张脸看不见了,它也能把语音的时间卡得死死的。评测结果显示,Fun-CineForge在语音听起来顺不顺耳、字错率高低、情感表达准不准、嘴唇动得对不对等好多指标上都把现有的开源模型甩在了后头。它不光把独白或者旁白这些单人说的话说得更好听了,关键是还能稳稳地搞定两个人或者多个人一起说话的复杂场面。这事儿已经放到GitHub还有HuggingFace上面去了,给专业做内容的人指了条新路子。