中国团队自主研发世界模型技术取得突破 登顶国际权威评测榜单

问题——世界模型是连接“感知”与“行动”的关键底座技术,被寄予机器人、虚拟仿真、自动驾驶和数字内容生产等领域落地的期待。但行业长期存在一个矛盾:不少模型在单段视频生成时画面精美,一旦进入多步交互、连续控制或复杂物理过程,就容易出现空间结构漂移、物体关系不一致、动作因果不稳定等问题,形成“看起来像、用起来难”的局面。尤其在具身场景中,模型不仅要生成画面,还要对“下一步怎么做、做了会发生什么”给出可信反馈。 原因——上述问题的关键在于,一些技术路线更关注渲染和纹理细节,却缺少可验证的物理规律与交互约束;同时,生成与控制往往被拆成多个模块再拼接,长时序推演中更容易累积误差。行业也缺少统一、可复现的评测尺度,导致不同模型在不同数据、不同任务下难以横向比较,更难判断其在真实交互任务中的可靠性。 影响——在最新一期WorldScore榜单中,流形空间自研模型WorldScape在可控性、生成质量以及物理与交互等维度的综合测试中排名第一。WorldScore被业界视为衡量通用世界模型能力的重要基准之一,测试覆盖数千种场景,并强调极限条件下的稳定性。值得关注的是,WorldScape据称在模型规模上低于部分同类高排名模型,但在交互与物理对应的指标上拉开差距,体现出其在“空间智能密度”和工程效率上的探索价值。业内人士认为,这个结果表明竞争重心正从“画面质量”转向“规律一致性”和“任务可执行性”。 对策——针对“可用”目标,WorldScape的技术路径强调生成与控制的一体化:一是采用统一的动作—世界状态建模框架,将空间位移与物体交互纳入同一生成过程,减少多模块拼接带来的不一致;二是在训练中引入显式三维几何感知的空间表示与约束,提升长时交互下的结构稳定性,缓解几何漂移与结构崩塌;三是在效率侧通过结构化生成与训练策略提升速度,使交互式生成在单卡条件下接近实时帧率,同时保持较高视觉质量与运动平滑度;四是通过世界状态记忆机制在多时间步共享并更新空间信息,增强长期一致性,让模型更接近“能记、能推演、能纠错”的交互系统。 前景——统一评测标准被视为下一阶段的关键。流形空间团队联合十余所国内外高校提出面向具身世界模型的统一评测体系WorldArena,并计划推出CVPR 2026 WorldArena Challenge,旨在以更贴近任务的方式评估模型在导航、操作、多步决策与物理一致性诸上的综合能力。多家企业已在该体系上开展测试,显示行业对“可比、可复现、可落地”的共同需求正在增强。业内预计,随着评测基准完善与工程化能力提升,世界模型有望在训练数据利用、仿真闭环、机器人学习与交互内容生产等方向加速应用;同时,可靠性、安全性与可解释性也将成为产业化必须跨越的门槛。

世界模型的价值不止于生成“好看的世界”,更在于构建“可执行的世界”。从榜单竞争到评测体系建设,行业正在把注意力从视觉效果转回到物理规律、交互控制与长期一致性等基础能力上。谁能在可验证的标准下持续提升可靠性,谁就更有机会把模型能力转化为生产力,推动具身智能从实验室走向真实场景。