人工智能的新突破是给全球人工智能科技发展注入中国智慧和力量嘛

最近,北京智源人工智能研究院出了个大新闻。他们搞出来的大模型,给学术期刊《自然》正刊发了一篇论文。这事儿不简单,说明我国在人工智能这块儿的实力真的强。这个研究首次证明了一个简洁统一的办法:用“预测下一个词元”,就能把文本、图像还有视频这些多模态数据弄明白。以前搞生成式AI的时候,大家通常要分开处理不同类型的信息。比如GPT这类语言模型特别厉害,靠的是“预测下一个词元”。但如果要处理图片或者视频,往往得用对比学习或者扩散模型这种专门的技术路线。这样搞得系统又复杂又费钱,还不太好用。所以大家一直想找个万能钥匙似的方法,把不同模态的信息融合在一起学。北京智源研究院的团队把这个问题解决了。他们搞了个叫Emu3的模型,把自回归这种方法用在了文本、图像还有视频的联合训练上。不管给啥输入,都给它转成“词元”序列,用同一套底层逻辑就能搞定各种任务了。实验结果显示,这个统一的自回归办法效果挺不错,图像生成质量、图文理解准确性、视频创作连贯性这些方面都跟那些专门的模型差不多甚至更好。更重要的是,这个办法扩展性强,通用性好。给下一代多模态智能系统铺路了。《自然》的编辑说这事儿挺有意义,发展可扩展、统一的多模态智能系统关键就靠它了。而且他们现在搞出来的Emu3.5更厉害点了,能初步预测简单场景后续会咋样。这对发展通用智能体和连接数字世界与物理世界的基座模型很有帮助。话说回来,北京智源研究院从2020年开始搞“悟道”系列研究一直到现在2025年了还没停下脚步。这次发在《自然》的成果就是他们长期坚持的结果。2025年6月他们又发布了“悟界”新一代大模型系列成果,想把AI从数字世界带到物理世界去,里面就有Emu系列多模态世界模型这些东西。这次成果的发表不光检验了中国在AI基础研究上的原创能力,也给全球生成式AI技术发展提供了新思路和方向。坚持搞基础研究真能有好结果,说不定还能加速AGI的到来呢。随着多模态学习不断发展进步,给经济社会各领域智能化转型提供更强大的技术引擎就指日可待了。我国科研机构在这方面不断努力创新突破就是给全球人工智能科技发展注入中国智慧和力量嘛。