我国科研团队构建GENIUS评测体系揭示智能系统创新应用能力不足

问题——多模态模型面临"会生成但不会推理"的挑战。北京大学联合香港中文大学、StepFun、香港理工大学及微软亚洲研究院最新研究发现，当前生成式模型在陌生情境下的推理与迁移能力存在明显不足。研究团队开发了名为GENIUS的评测框架，指出现有评估过于侧重知识记忆和模式复现，而忽视了模型对新任务的适应能力、抽象归纳能力和规则执行能力。随着生成式模型在教育、内容生产等场景的广泛应用，准确理解和执行新规则已成为影响其可靠性的关键因素。

从记忆答案到迁移推理，是智能技术走向实用的关键突破。GENIUS等新评测框架表明，只有将模型置于真实约束下测试，才能评估其真实能力边界。未来需要持续完善评测、训练和校验的闭环系统，这将成为产业应用和公共治理共同需要的基础工程。

我国科研团队构建GENIUS评测体系 揭示智能系统创新应用能力不足

我国科研团队构建GENIUS评测体系揭示智能系统创新应用能力不足