蚂蚁灵波开源世界模型LingBot-World：打造可实时交互“数字演练场”助力具身智能训练

具身智能的发展面临一个现实难题。要让智能体在真实物理世界中执行复杂任务——需要大量真机训练数据——但获取成本高、周期长。如何在虚拟环境中为智能体提供足够逼真的试错空间，成为产业的紧迫需求。蚂蚁灵波科技的新发布正是针对此问题的解决方案。LingBot-World是一款开源世界模型，通过多阶段训练和并行化加速技术在视频生成领域取得突破。其核心成就是解决了困扰行业的"长时漂移"现象——视频生成时间延长后，画面中的物体容易变形、细节塌陷、主体消失或场景结构崩坏。LingBot-World实现了近10分钟的连续稳定无损生成，让智能体可以在虚拟环境中进行更长序列、更复杂的多步骤任务训练。在交互能力上，LingBot-World同样表现突出。模型可实现约16帧每秒的生成吞吐量，端到端交互延迟控制在1秒以内，用户可通过键盘或鼠标实时控制角色与相机视角。用户还可通过文本指令触发环境变化与世界事件，例如调整天气、改变画面风格或生成特定事件，同时保持场景的几何关系相对一致。这种多模态交互能力为复杂场景的模拟提供了更大的灵活性。从技术指标看，LingBot-World在视频质量、动态程度、长时一致性、交互能力等关键维度上达到国际先进水平，与谷歌Genie 3等国际领先模型相当，表明国内在世界模型领域已具有竞争力。蚂蚁灵波科技选择向社区开源模型权重和推理代码。这一举措有助于加速产业生态建设，让更多研究机构和企业能够基于这一基础进行创新应用开发。对具身智能、自动驾驶、游戏开发等领域来说，LingBot-World提供的高保真、可实时操控的"数字演练场"将显著降低研发成本，加快技术迭代。从更广阔的视角看，世界模型的突破代表了人工智能向更深层次发展的方向。能够准确模拟物理世界的运行规律，让智能体在虚拟环境中学习和适应，这是实现通用人工智能的重要路径。LingBot-World在长时一致性和因果理解上的进展，表明这一方向正在取得实质性进展。

开源共享是技术进步的催化剂；蚂蚁灵波科技此次开源世界模型，不仅填补了行业空白，更展现了协同创新的价值。在智能化浪潮中，此类基础技术的突破将重新定义人机交互的边界，为未来科技发展注入新动能。