谷歌放出了自家首个原生多模态嵌入模型,gemini embedding 2,能把文本、图像、视频、音频和

谷歌放出了自家首个原生多模态嵌入模型,Gemini Embedding 2,它能把文本、图像、视频、音频和文档这些数据都塞到同一个空间里。以前的模型大多只能干生成内容这活儿,像Gemini 3这样的生成式AI主要是用来造句子。但这次发布的Gemini Embedding 2不一样,它把五种数据都变成了向量形式,机器能读得懂了。这东西能理解语义关系,查东西比搜关键字准多了,还能关联上下文。 谷歌之前出的模型只能玩文本,这回就牛了,能让机器像人一样跨着不同的模态看信息。现在你在API里就能体验这个新版本了,不过老版本的gemini-embedding-001还留着给只需要处理文字的应用用。这个新模型特别强大,它能在一次请求里同时把图像、视频和文字一块儿喂进去,让机器自己去琢磨这些媒体之间有啥关系。 举个例子吧,在诉讼取证的时候,这个模型能帮律师在几百万条记录里飞快找到关键证据。经过测试发现,用多模态嵌入找东西确实比以前好用,精度和召回率都上去了,看图和视频也更快更准。法律取证、跨媒体检索这些场景用起来简直爽翻了。 具体来说呢,它能支持100种语言的语义理解。数据类型的限制也挺宽:文字这块上下文窗口能开到8192 tokens;图片每次能传6张,支持PNG和JPEG格式;视频最长录120秒的MP4或MOV;音频不用先转录就能直接处理;PDF文档最多给6页看。 谷歌说这东西简化了复杂的数据处理流程,增强了多模态的应用能力。你能用它来搞检索增强生成(RAG)、语义搜索、情感分析还有数据聚类。用Gemini API或者Vertex AI都能玩到这个预览版,具体型号叫gemini-embedding-2-preview。