谷歌放出了自家首个原生多模态嵌入模型，gemini embedding 2，能把文本、图像、视频、音频和

谷歌放出了自家首个原生多模态嵌入模型，Gemini Embedding 2，它能把文本、图像、视频、音频和文档这些数据都塞到同一个空间里。以前的模型大多只能干生成内容这活儿，像Gemini 3这样的生成式AI主要是用来造句子。但这次发布的Gemini Embedding 2不一样，它把五种数据都变成了向量形式，机器能读得懂了。这东西能理解语义关系，查东西比搜关键字准多了，还能关联上下文。谷歌之前出的模型只能玩文本，这回就牛了，能让机器像人一样跨着不同的模态看信息。现在你在API里就能体验这个新版本了，不过老版本的gemini-embedding-001还留着给只需要处理文字的应用用。这个新模型特别强大，它能在一次请求里同时把图像、视频和文字一块儿喂进去，让机器自己去琢磨这些媒体之间有啥关系。举个例子吧，在诉讼取证的时候，这个模型能帮律师在几百万条记录里飞快找到关键证据。经过测试发现，用多模态嵌入找东西确实比以前好用，精度和召回率都上去了，看图和视频也更快更准。法律取证、跨媒体检索这些场景用起来简直爽翻了。具体来说呢，它能支持100种语言的语义理解。数据类型的限制也挺宽：文字这块上下文窗口能开到8192 tokens；图片每次能传6张，支持PNG和JPEG格式；视频最长录120秒的MP4或MOV；音频不用先转录就能直接处理；PDF文档最多给6页看。谷歌说这东西简化了复杂的数据处理流程，增强了多模态的应用能力。你能用它来搞检索增强生成（RAG）、语义搜索、情感分析还有数据聚类。用Gemini API或者Vertex AI都能玩到这个预览版，具体型号叫gemini-embedding-2-preview。