就在昨晚,通义实验室正式把全新的多模态大模型Qwen3.5-Omni给大家带出来了,这个大家伙一口气拿下了215项SOTA(业界最佳)的成绩,让AI真的开始把物理世界也给理解透了。以前AI只配当个屏幕里的小助手,现在这个模型彻底变了个样。它本来的结构就是全模态的,文字、图片、声音还有视频都能一下子接住。不管是听声音、讲道理、聊天还是翻译,它都稳稳排在最前面。在听的能力这块,Qwen3.5-Omni已经全面超过了Gemini-3.1Pro,而看东西和写字的本事,跟同个尺寸的Qwen3.5也是一个级别的。 技术方面,这个模型是基于Hybrid-Attention MoE架构的。它把老的那种Thinker-Talker分工模式保留下来,又做了底层的大改动。负责理解的Thinker部分变成了Hybrid-Attention MoE,能把上下文撑到256K那么长。这么一来,哪怕是听个10小时的音频或者看个1小时的视频都没问题,而且还能用TMRoPE技术把里面细微的时间点都抓出来。负责说话的Talker部分引入了ARIA技术和RVQ编码,把之前那个又重又慢的DiT运算给换掉了。这招不光解决了以前语音里漏字或者读错数字的问题,还让机器能听懂实时的语音指令。 有了这些升级,应用场景也是直接变多了。模型在没经过专门训练的情况下,居然能看懂视频里的逻辑直接写Python代码或者前端代码,这叫Vibe Coding。它还能像真人一样跟你说话了,咳嗽这种杂音它能听出来不是打断说话,你想让它用“开心”的语气说或者调大点声音都行。看视频的时候它能把动作、背景音乐的变化还有镜头切换都精准地写进带时间戳的Caption里。你要是想搞个自己的数字分身也很简单,随便录段音就能弄出来高自然度的音色了。 现在这个Qwen3.5-Omni已经在阿里云百炼平台上能用了,有Plus、Flash还有Light这三种型号。Real-time的API也开放了,魔搭社区里还有个能让你直接上手试试的Demo。