我国多模态人工智能技术取得突破 通义开源模型实现跨模态高效检索

记者从阿里巴巴通义千问团队获悉,基于Qwen3-VL基础模型构建的两款专业检索工具已正式向全球开发者开放。

这一举措不仅丰富了国产大模型的技术生态,也为解决当前信息检索领域面临的跨模态理解难题提供了新路径。

随着互联网内容形态日益多元,传统检索技术在处理图文混排、视频字幕匹配等复杂场景时常常力不从心。

用户查询可能包含文字描述,但期望找到的内容却是图片或视频;企业知识库中同时存储着文档、图表和演示视频,如何实现统一检索成为技术瓶颈。

此次发布的模型系列正是针对这些实际需求而设计。

Qwen3-VL-Embedding模型采用双塔架构设计,能够将文本、图像、可视化文档以及视频等不同形态的信息转化为统一的语义向量表示。

这种设计使得原本存在于不同信息空间的内容得以在同一语义框架下进行比对和匹配。

该模型支持超过30种语言,为全球化应用奠定了基础。

在国际权威评测平台MMEB-v2的测试中,其8B参数版本的综合表现已超越所有已公开的开源模型及部分商业服务。

与此配套的Qwen3-VL-Reranker模型则承担着精细化排序的职能。

该模型采用单塔架构,通过深层交叉注意力机制对查询与候选文档之间的语义关联进行细致分析,输出精确的相关性评分。

在实际应用中,两款模型形成协同工作机制:Embedding模型负责从海量数据中快速召回候选结果,Reranker模型随后对这些结果进行二次排序,这种两阶段检索流程显著提升了最终结果的准确性。

技术测评数据显示,在涵盖图文检索、视频文本匹配、视觉问答等多项任务的综合测试中,Qwen3-VL系列模型均展现出领先水平。

在专门针对视觉文档检索设计的JinaVDR和ViDoRe v3数据集上,8B版本的Reranker模型在大多数任务中取得最优成绩,性能持续优于基础模型和其他基线方案。

值得关注的是,该系列模型在保持高性能的同时,还具备良好的工程实用性。

模型提供灵活的向量维度配置选项,支持根据具体应用场景进行任务指令定制,并且在量化处理后仍能保持优秀性能,便于开发者将其集成到现有系统架构中,降低了技术应用门槛。

业内专家指出,通义千问此次选择开源策略,将推动整个行业在多模态理解技术上的进步。

开源模式有助于建立更广泛的技术生态,使更多开发者和企业能够基于这些基础能力构建创新应用,从智能客服到内容推荐,从医疗影像检索到工业质检,应用场景广阔。

从技术演进路径看,多模态检索能力的提升将为下一代信息服务奠定基础。

当前,企业知识管理、电商搜索、教育资源库等领域对跨模态检索的需求日益旺盛。

统一的语义理解框架不仅能够提升检索效率,更能够挖掘不同信息形态之间的隐含关联,创造新的价值。

从“能搜”到“搜准”,再到“跨语言、跨模态地搜得稳”,检索技术的演进本质上是在提升信息供给与需求匹配的效率。

开放与共享为产业带来更快的扩散速度,也提出更高的治理与责任要求。

只有在技术创新、应用规范与安全合规之间形成良性平衡,多模态检索的价值才能更充分释放,并在更广阔的公共服务与产业场景中转化为真实生产力。