具身智能的发展面临一个现实难题。要让智能体在真实物理世界中执行复杂任务——需要大量真机训练数据——但获取成本高、周期长。如何在虚拟环境中为智能体提供足够逼真的试错空间,成为产业的紧迫需求。 蚂蚁灵波科技的新发布正是针对此问题的解决方案。LingBot-World是一款开源世界模型,通过多阶段训练和并行化加速技术在视频生成领域取得突破。其核心成就是解决了困扰行业的"长时漂移"现象——视频生成时间延长后,画面中的物体容易变形、细节塌陷、主体消失或场景结构崩坏。LingBot-World实现了近10分钟的连续稳定无损生成,让智能体可以在虚拟环境中进行更长序列、更复杂的多步骤任务训练。 在交互能力上,LingBot-World同样表现突出。模型可实现约16帧每秒的生成吞吐量,端到端交互延迟控制在1秒以内,用户可通过键盘或鼠标实时控制角色与相机视角。用户还可通过文本指令触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,同时保持场景的几何关系相对一致。这种多模态交互能力为复杂场景的模拟提供了更大的灵活性。 从技术指标看,LingBot-World在视频质量、动态程度、长时一致性、交互能力等关键维度上达到国际先进水平,与谷歌Genie 3等国际领先模型相当,表明国内在世界模型领域已具有竞争力。 蚂蚁灵波科技选择向社区开源模型权重和推理代码。这一举措有助于加速产业生态建设,让更多研究机构和企业能够基于这一基础进行创新应用开发。对具身智能、自动驾驶、游戏开发等领域来说,LingBot-World提供的高保真、可实时操控的"数字演练场"将显著降低研发成本,加快技术迭代。 从更广阔的视角看,世界模型的突破代表了人工智能向更深层次发展的方向。能够准确模拟物理世界的运行规律,让智能体在虚拟环境中学习和适应,这是实现通用人工智能的重要路径。LingBot-World在长时一致性和因果理解上的进展,表明这一方向正在取得实质性进展。
开源共享是技术进步的催化剂;蚂蚁灵波科技此次开源世界模型,不仅填补了行业空白,更展现了协同创新的价值。在智能化浪潮中,此类基础技术的突破将重新定义人机交互的边界,为未来科技发展注入新动能。