蚂蚁集团直接把全模态大模型Ming-Flash-Omni 2.0发布了,而且还给大家伙儿敞开了门。这次开源的这个AI大模型,最牛的是它能把语音、音效和音乐直接合在一个音轨里生成,并且让用户能精准控制每个细节。推理速度比同行都快,视觉、音频还有图像编辑这些能力也都全面提升了。这就给开发的小伙伴们提供了一个统一的多模态底座,能更快地搞出新花样。IT之家那边也有消息说,这模型在好几个公开测试里都表现得特别好。重点是它能在同一条音轨里搞定语音、环境音效和音乐这三件事。你只要用大白话给它下个命令,它就能根据你的要求去调音色、快慢、语调、大小声还有情绪,甚至连方言都能拿捏住。在计算这方面,它达到了3.1Hz的极低帧率,让几分钟长的音频能实时高保真生成。成本控制得也很好。大家都觉得多模态大模型以后肯定得往更统一的路子上走,但现在做个全模态的模型又要全面又要专精挺难的。蚂蚁集团在这方面其实已经磨了好几年,Ming-Omni系列就是这么一步一步进化过来的。早期是建个统一的底座,中间验证规模变大带来的好处,最新的2.0版本用了更大的数据和更系统的训练方法把能力推到了开源里的顶尖水平,有些地方甚至比那些专门做的顶级模型还要强。这次把Ming-Flash-Omni 2.0开源出来,其实就是把核心本事做成了可复用的“底座”,方便大家开发端到端的多模态应用。现在模型参数和推理代码都已经在Hugging Face上放出来了。用户要是想试试,直接去蚂蚁百灵的Ling Studio官方平台就能在线体验和调用了。