最近啊,专门做研究的机构搞了个多模态理解的测试集,叫BabyVision,刚刚做完了第一轮的摸底。这一测下来可把不少人给吓到了,数据对比太扎眼了。要知道在那些必须完全靠眼睛说话的任务里,绝大多数现在最厉害的模型表现得比3岁的小孩还差,有的干脆就达不到这个平均线。就有一个稍微好点的模型,勉勉强强才过了3岁这个坎,要是跟6岁的娃比呢?还差了整整20个百分点。这一轮总共测了388道题,做的人里有本科以上学历的人类一合计,准确率达到了94.1%,可最好的那个闭源模型才49.7%,开源那边表现最抢眼的也就是22.2%,剩下的基本都在12%到19%晃荡。这差距大得一眼就能看出来。 研究报告里把这些不足扒了个底朝天。模型在这四个基本的视觉能力上全都是短板:看得细不细、会不会一直盯着东西看、空间感觉好不好、还有能不能认出图案。这种全方位的不灵光说明现在的多模态模型脑子里缺根弦。 团队在看题的时候发现了几个特别典型的问题场景。比如垃圾分类连线路径那块儿,3岁的小孩凭着本能就能顺着线走到头,可表现最好的模型虽然说起来头头是道,答案却是错得离谱。拼图补缺时更是离谱,人能直接看出像素级的几何差别,模型把这些信息换成文字描述一捋顺,细微的差别全没了,判断自然就错了。 咱们平时用这些模型觉得挺神的,其实是它会说话救了命。一到了必须光靠眼力解决问题的地方,立马就露馅了。多数模型干这种活儿都是先把图转成文字再推理。这种在语言上下功夫的办法对付简单题还行,一碰上真得靠看的复杂任务就不管用了。特别是那种得连续盯着看、或者在脑子里想象空间的活儿,最能显出它们的短板。 这事儿把行业发展的深层矛盾给挖出来了。现在大家都觉得语言能力突飞猛进,视觉理解反而落后了一大截。大家都想用嘴上功夫来补眼力上的缺儿,结果把基础能力搞得很不平均。你看现在主流的架构在处理那种一直动的画面、或者保持空间一致性的活儿上就先天不足。它们总爱把不断的轨迹拆成“上、下、左、右”这种词来说事儿,搞得追踪老是断链子,碰到岔路口就容易迷糊。 在三维空间里转脑筋的时候更是弱鸡。模型根本没本事在脑子里把一个三维的东西拿出来摆弄摆弄。 面对这种窘境,研究的人和做技术的公司都开始反思路子走对不对了。好几位专家都在喊,得加大力度去补视觉基础的课,不能太依赖语言的那个桶来漏着了。 有的研究团队已经开始琢磨新的模型结构和训练法子了。行业分析说,下一步得在这三个方向死磕:一是开发那种更像人眼的模型架构;二是弄一套更科学的训练和评测体系;三是多跨学科交流一下,把认知科学、神经科学那些好东西都搬过来用。 眼光放长远一点看,视觉理解这块要是真突破了对好几个行业都有大好处。像工厂里的质检、医生看片子、还有开车自动驾驶这些地方,强大的视觉能力是技术落地的命根子。要是短板不解决掉,人工智能想再往更多的领域深扎就很费劲了。 专家猜这两年就是视觉理解技术的关键期了。只要投的钱够多、新方法出来了,估计就会有更多专门盯着视觉基础的模型出来亮相。同时行业还得把能力评测的标准定得更死一点,好推着技术一步步走得更稳当。 技术进步从来不是一口气吃成个胖子的事儿。这次测试就像一面镜子照出了不少问题的根源。在追求大突破的同时还得盯着根基不放、耐着性子去培育它,这比光盯着一个数据指标往上窜可能更重要。 当机器真的能像个孩子那样纯纯地“看见”这个世界的时候,人工智能才能算是有了一双能看懂世界的眼睛。这不仅是技术上的难题,也是在探索人类智慧本质的路上走了一步大棋。产业界需要这种清醒的认识:只有先把地基打牢了,以后的路才能走得长久又稳当。