清华和快手联手搞出了一个新的ai 框架，就是为了让机器更懂多媒体。2026年2月的时候，清华大学

清华和快手联手搞出了一个新的AI框架，就是为了让机器更懂多媒体。2026年2月的时候，清华大学深圳国际研究生院还有快手的Kling团队一起放了个大招，搞了个嵌入器引导强化学习（EG-RL）的框架。这个方法是想让AI在图片和视频这块儿的理解能力强一点。这次研究已经发到了arXiv上了，论文编号是arXiv:2602.13823v1，有兴趣的朋友可以去搜一搜看看。现在的搜索引擎在处理图片和视频的时候，能不能准确定位到用户想要的东西是个大问题。以前的老办法就盯着固定的答案不放，现在那些生成式的AI虽然能瞎琢磨，但是经常会跑偏。EG-RL框架就给AI配了个“教练”，专门盯着它怎么想。这个框架主要就两个角色：一个是负责想出东西的推理器，一个是像个老教师一样给推理器评分指导的嵌入器。这样AI就能在反馈中学会怎么做目标明确的思考，也就不容易跑题了。研究团队还搞了个叫可追溯链式思维（T-CoT）的新玩法。有了这个，AI不光能看懂东西，还能把重要的证据都标出来。比如看一张图里的“红色汽车”，它不光能框出位置，还能把关键词给抠出来。这种方法让AI的推理过程都能看得见摸得着，以后好改进。为了看看这个框架到底行不行，他们拿两个测试集来试了试：一个是MMEB-V2，一个是UVRB。MMEB-V2里有78个多媒体理解的活儿干，结果发现用EG-RL来定位图片的时候准得不行，准确率飙到了91.4%，整个测试得分68.1分，直接把现在最好的模型都给比下去了。UVRB是专门测视频检索的，EG-RL在这儿表现也不赖，平均分直接排第一。这次研究不光技术上有了突破，更重要的是给以后多媒体AI的发展指了条明路。把推理和嵌入这两样东西合在一起用，让机器能更准地听懂你想找啥，搜索和推荐系统都能更顺溜。而且这种透明的思路也解决了AI到底怎么解释它在想啥的问题，特别适合像医疗和开车这种不能出错的地方。总而言之，清华跟快手这次合作研究算是给多媒体AI技术打下了个好底子，让我们看到了AI在理解复杂图片视频方面的大潜力。