清华和快手联手搞出了一个新的ai 框架,就是为了让机器更懂多媒体。2026年2月的时候,清华大学

清华和快手联手搞出了一个新的AI框架,就是为了让机器更懂多媒体。2026年2月的时候,清华大学深圳国际研究生院还有快手的Kling团队一起放了个大招,搞了个嵌入器引导强化学习(EG-RL)的框架。这个方法是想让AI在图片和视频这块儿的理解能力强一点。这次研究已经发到了arXiv上了,论文编号是arXiv:2602.13823v1,有兴趣的朋友可以去搜一搜看看。 现在的搜索引擎在处理图片和视频的时候,能不能准确定位到用户想要的东西是个大问题。以前的老办法就盯着固定的答案不放,现在那些生成式的AI虽然能瞎琢磨,但是经常会跑偏。EG-RL框架就给AI配了个“教练”,专门盯着它怎么想。这个框架主要就两个角色:一个是负责想出东西的推理器,一个是像个老教师一样给推理器评分指导的嵌入器。这样AI就能在反馈中学会怎么做目标明确的思考,也就不容易跑题了。 研究团队还搞了个叫可追溯链式思维(T-CoT)的新玩法。有了这个,AI不光能看懂东西,还能把重要的证据都标出来。比如看一张图里的“红色汽车”,它不光能框出位置,还能把关键词给抠出来。这种方法让AI的推理过程都能看得见摸得着,以后好改进。 为了看看这个框架到底行不行,他们拿两个测试集来试了试:一个是MMEB-V2,一个是UVRB。MMEB-V2里有78个多媒体理解的活儿干,结果发现用EG-RL来定位图片的时候准得不行,准确率飙到了91.4%,整个测试得分68.1分,直接把现在最好的模型都给比下去了。UVRB是专门测视频检索的,EG-RL在这儿表现也不赖,平均分直接排第一。 这次研究不光技术上有了突破,更重要的是给以后多媒体AI的发展指了条明路。把推理和嵌入这两样东西合在一起用,让机器能更准地听懂你想找啥,搜索和推荐系统都能更顺溜。而且这种透明的思路也解决了AI到底怎么解释它在想啥的问题,特别适合像医疗和开车这种不能出错的地方。 总而言之,清华跟快手这次合作研究算是给多媒体AI技术打下了个好底子,让我们看到了AI在理解复杂图片视频方面的大潜力。