科学家首次发现多模态大模型跟人类一样能“理解”事物

科技日报记者陆成宽从北京传来消息，科学家首次发现多模态大模型居然跟人类一样能“理解”事物。这一突破发生在6月10日，由中国科学院自动化研究所的科研团队带头完成，相关成果已经发表在《自然·机器智能》杂志上。何晖光研究员作为论文通讯作者指出，人类认知的核心就是真正“理解”事物，比如看到“狗”或“苹果”，我们不仅知道它们的样子，还能明白它们的用途和文化含义。科学家早就好奇像ChatGPT这样的大模型能不能在海量数据中学会像人一样思考。传统人工智能只关注物体识别的准确率，很少去探讨模型是否真的理解物体的含义。何晖光说，“现在的人工智能能区分猫狗图片，但这和人类理解猫狗有什么区别？”他带领团队借鉴人脑原理做了个实验。他们从1854种物品中挑出3个概念，让模型和人类玩“找不同”游戏，还让模型和人看图片进行比较。通过分析470万次的判断数据，科研人员绘制出了模型的“概念地图”，也就是思维导图。何晖光说，“这次实验从海量数据里总结出66个关键角度来解释大模型是怎么思考的。” 这66个角度很容易理解，而且和人脑负责物体加工的神经活动方式高度一致。多模态模型的表现尤为亮眼，它们看文字和图片时的思考方式跟人类更像。何晖光补充说，“有趣的是，人类做判断时会考虑形状和颜色，也会想到含义或用途，”但大模型更依赖文字标签和学到的抽象概念，“这说明大模型内部确实发展出了一种类似人类的理解方式。” 这项发现为人工智能如何思考开辟了新路，也为打造能像人一样理解世界的系统打下了基础。北京的陆成宽记者透露，“这次发现意义重大，”这意味着未来我们或许能设计出更像人的AI系统。