嘿,朋友,听说了吗?咱们国家搞了个大新闻,北京智源人工智能研究院的科学家们在2月9日搞出了个特别厉害的AI模型Emu3.5。这次研究可是实实在在地为咱们的人工智能打造了一个“通用大脑”。 记得那会儿是2018年,美国OpenAI公司搞了个GPT模型,他们训练AI去预测下一个词,到了2022年他们又推出了ChatGPT。黄铁军教授说,这其实是把各种数据都转化成了一套“数字积木”,让模型像玩歌词接龙一样不断预测下一个积木长什么样。这种模式把文字、图像、视频都统一处理了,省去了很多麻烦。 以前的AI模型大都是各自为政,理解语言用一个模型,生成图片又用另一个。北京智源人工智能研究院这次直接训练出了一个“通才”,也就是Emu3和Emu3.5。你要是给它一段文字描述,它马上就能给你画出来;要是给它一张照片再提个问题,它也能回答得特别准确;甚至还能给你生成连续的视频片段。 在Emu3.5里,研究人员把预测下一个词元升级成了预测下一个状态,让AI开始学会世界怎么随时间变化了。黄铁军教授说,这意味着多模态模型里的理解和生成功能,终于在同一种简单统一的框架下打通了。 这个成果证明了生成式人工智能技术路线的普适性。咱们已经知道怎么让不同智能在同一个系统里涌现出来了。看来咱们国家的科技确实在稳步前进!