阿里千问推出了全模态大模型qwen3.5-omni,据说功能特别强大。

阿里千问这回推出了全模态大模型Qwen3.5-Omni,据说功能特别强大。IT之家昨天3月30号消息,他们终于把这个模型给发出来了。我看了下核心亮点,确实牛。这个模型能把文本、图片、音频和音视频全都无缝地理解进去。比如你给它一段视频,它能生成带时间戳的详细Caption,画面里是谁、说啥话、背景音乐怎么变,还有镜头切了几次都能清清楚楚告诉你。 更厉害的是,这次模型在音频和音视频分析、推理、对话、翻译这些任务上,超过了Gemini3.1-Pro,拿了215项SOTA成绩。还有个很有意思的能力叫Audio-Visual Vibe Coding,不用专门训练,它就能根据画面逻辑自然生成代码。 跟以前相比,这次的对话体验变得很自然。比如你跟它聊天时咳嗽一下或者随便附和一句,它不会突然停住听;但要是你真的想插话,它立马就能接上。你还能直接命令它小声点或者用开心的语气说话,声音的大小、语速和情绪都能像真人一样控制。 声音克隆功能也很贴心。只要你上传一段录音,就能定制出专属的AI Assistant音色。克隆后的声音特别自然稳定,支持多种语言生成。有了这个功能,你就可以打造一个“数字分身”式的助手,用你的声音去沟通陪伴。 不仅是聊天聊天,这东西还能帮你做事。你问它明天北京天气咋样顺便推荐个酒店,它会自己判断要不要联网查资料,直接给你靠谱的建议。它原生支持WebSearch和复杂Function Call,真的能帮你解决问题。 我特别惊喜的是这次模型能直接根据音视频指令生成网页内容或者可运行的代码。以前想把创意实现还得花半天功夫现在只需要一步就能搞定。 关于技术细节呢?这次在长上下文、多语言和音视频理解上都有明显提升。配合ARIA技术后,语音输出的稳定性和自然度也更好了。Qwen3.5-Omni-Plus在音视频理解、推理和交互任务上拿了215项SOTA成绩,全方面超越了Gemini-3.1 Pro。视觉和文本能力也跟同尺寸的Qwen3.5模型持平。 大家可以通过阿里云百炼搜索来调用API体验这款模型哦。提供了Plus、Flash、Light三种不同尺寸的版本呢!