通义实验室搞出了个叫fun-cineforge的大模型，这波操作直接给影视级ai 配音带来了新花

通义实验室搞出了个叫Fun-CineForge的大模型，这波操作直接给影视级AI配音带来了新花样。品玩3月16日那天得到消息，官方说这个模型终于正式发布并开源了。这可是业内头一个专门用来对付影视、动画还有游戏配音那些复杂场景的AI。Fun-CineForge这就要把之前AI在这块儿老是解决不了的难题给破了，也就是把声音跟角色口型、情绪、音色还有时间点给对上了。以前的技术主要卡在两个地方：高质量的多模态数据太少，还有模型遇到镜头切换或者人脸被挡住的时候就不行了。Fun-CineForge这次的思路很聪明，搞了个“数据-模型”一体的办法。在数据方面，他们弄了个叫CineDub的自动化流程，能从一大堆影视素材里弄出高质量的结构化数据。用大模型思维链把中文错别字率压到了0.94%。模型的核心突破是第一次在配音里用了“时间模态”，把视觉、文本、音频这些信息混在一起用。哪怕说话人那张脸看不见了，它也能把语音的时间卡得死死的。评测结果显示，Fun-CineForge在语音听起来顺不顺耳、字错率高低、情感表达准不准、嘴唇动得对不对等好多指标上都把现有的开源模型甩在了后头。它不光把独白或者旁白这些单人说的话说得更好听了，关键是还能稳稳地搞定两个人或者多个人一起说话的复杂场面。这事儿已经放到GitHub还有HuggingFace上面去了，给专业做内容的人指了条新路子。