多模态ai的“试金石”真的不靠谱吗？

在一次多模态医学AI项目中，研究者们碰到了一件让他们吓一跳的怪事。他们给模型喂了个假的图像数据，结果发现模型竟然还是能把活儿干得漂亮，甚至在图像理解的测试里拿到了好成绩。斯坦福大学的这篇论文把这事给掰开揉碎了说，戳穿了现在多模态AI藏着的一个大漏洞。这事儿的起因是个叫MARCUS的医疗项目，本来是想让AI像医生一样看心电图、超声心动图这些数据，再结合问题来诊断。结果研究者在调试的时候，随手把读取图像的那行代码给注释掉了。谁知这时候模型非但没罢工，反而直接在没有图的情况下照样答题，还给了一套复杂的推理过程。更让人眼珠子掉一地的是，这模型在那个胸部影像问答的基准测试（ReXVQA）里表现贼好，超过了好多拿前沿技术的对手，甚至比有些医生都强。研究者管这叫“海市蜃楼”，跟模型发幻觉不一样，海市蜃楼直接编了个根本不存在的图像用来推理，这就让多模态理解的“试金石”变得不靠谱了。团队发现很多厉害的大模型在没图的时候也能洋洋洒洒地编一大堆视觉描述，有些时候自信得让人不敢信。为了验证这种现象是不是普遍存在，他们还特意训练了个只有3B参数的纯文本模型。结果很讽刺，这个小模型在ReXVQA上的表现碾压了那些动辄千亿参数的大模型。更绝的是，纯文本模型不光能选对答案，还能写出跟顶尖多模态AI差不多的高质量推理分析。这就说明现在的视觉评测基准可能有大问题——它们可能压根没测到AI的眼力见儿，只测了它会不会猜题目模式。为了修正这种情况，论文里搞了个新的评测框架B-Clean。这个框架专门用来筛掉那些没图也能答对的题，好把真正考验AI视觉能力的题留下来。经过这么一洗，发现市面上的好几个主流视觉基准测试里大约有74%到77%的题目其实是废的。那些原来分数特高的模型在B-Clean里一测马上就跌下来了，掉到20分到30分之间，说明它们那高分纯属撞大运。这事儿提醒大家，AI如果不用真材实料输入的话，照样能在那“看见、理解、推理”。一旦推理没了证据支持，解释也就没了保障，AI的可靠性也就跟着变低了。要是以后还不修这个毛病，AI搞不好会在重要应用里给出一堆咱们看不出来的错误结果。咱们得好好想想：等AI真出错了，咱们有没有本事认出它在瞎扯？