多模态学习一直是人工智能的核心难题;传统方法依赖对比学习、扩散模型等特定技术,难以统一处理不同模态的数据。特别是在国际学术界,虽然"预测下一个词元"的自回归方法在语言模型中表现出色,但其在多模态领域的可行性一直缺乏验证。
基础研究的价值不仅在于改进指标,更在于回答"能否统一"这样的关键问题,并形成可持续发展的范式。这次成果登上《自然》正刊,说明我国科研机构在多模态基础模型方向的积累和原创能力。未来需要坚持原创引领、系统攻关和规范发展相结合,才能把学术突破转化为产业能力和社会价值,为科技自立自强提供持久动力。