科技日报记者陆成宽从北京传来消息,科学家首次发现多模态大模型居然跟人类一样能“理解”事物。这一突破发生在6月10日,由中国科学院自动化研究所的科研团队带头完成,相关成果已经发表在《自然·机器智能》杂志上。何晖光研究员作为论文通讯作者指出,人类认知的核心就是真正“理解”事物,比如看到“狗”或“苹果”,我们不仅知道它们的样子,还能明白它们的用途和文化含义。 科学家早就好奇像ChatGPT这样的大模型能不能在海量数据中学会像人一样思考。传统人工智能只关注物体识别的准确率,很少去探讨模型是否真的理解物体的含义。何晖光说,“现在的人工智能能区分猫狗图片,但这和人类理解猫狗有什么区别?”他带领团队借鉴人脑原理做了个实验。 他们从1854种物品中挑出3个概念,让模型和人类玩“找不同”游戏,还让模型和人看图片进行比较。通过分析470万次的判断数据,科研人员绘制出了模型的“概念地图”,也就是思维导图。何晖光说,“这次实验从海量数据里总结出66个关键角度来解释大模型是怎么思考的。” 这66个角度很容易理解,而且和人脑负责物体加工的神经活动方式高度一致。多模态模型的表现尤为亮眼,它们看文字和图片时的思考方式跟人类更像。何晖光补充说,“有趣的是,人类做判断时会考虑形状和颜色,也会想到含义或用途,”但大模型更依赖文字标签和学到的抽象概念,“这说明大模型内部确实发展出了一种类似人类的理解方式。” 这项发现为人工智能如何思考开辟了新路,也为打造能像人一样理解世界的系统打下了基础。北京的陆成宽记者透露,“这次发现意义重大,”这意味着未来我们或许能设计出更像人的AI系统。