在AI技术进步飞快的时候,咱们国内的公司一直在砸钱搞基础模型。就在1月29日这天,蚂蚁灵波科技把自家的世界模型LingBot-World给开源了,这是他们继视觉动作模型之后的又一力作。这个模型很牛,各项指标都顶呱呱,特别是在那个老是让人头疼的视频生成“长时漂移”问题上。他们用了新的训练架构和并行加速技术,硬是把视频连续生成时间推到了快10分钟,再也不怕时间长了东西就变形或者细节丢光了。这下好了,那些需要好几个步骤、很长时间交互的复杂任务训练,有了这个做基础就能搞得定了。 更厉害的是这模型的响应速度特别快,每秒钟能吐16帧画面,端到端的延迟控制在1秒以内。你直接用鼠标键盘就能操纵虚拟角色或者改变视角,系统马上就能给你回应。它还支持你直接发文字命令去改天气、换画风这些动态场景,虽然场景在变,但里头的几何关系还能保持不变。这设计让人省心不少,因为它有零样本泛化的本事。只要给它一张实拍的照片或者游戏截图,它立马就能吐出能交互的视频流出来,根本不用你专门针对某个场景再去练一遍。 以前训练模型的时候最怕缺高质量的交互数据,现在这个团队用了个挺巧妙的招儿来采集数据。一边是在网上扒海量视频仔细清洗;另一边是用游戏引擎配合虚幻引擎直接从渲染层抠图抓数据。这两手都抓的方式帮着模型学会了“动作-环境”是怎么互动的。行业的大佬们都说这事儿挺有意义:它能推动自动驾驶、具身智能这些前沿领域的发展;对咱们的产业生态也有好处,能帮开发者把门槛降低点。 现在这模型的代码和权重已经通过社区开放给全世界用了。LingBot-World的出现标志着咱们的AI产业正在往底层架构上使劲儿,不再光是玩应用那一套了。这技术不光是咱们自己的实力展示,也是给全球AI社区添砖加瓦了。随着仿真技术越来越准,智能制造、智慧交通、虚拟现实这些领域都可能有新的玩法冒出来,给数字经济注入新鲜血液。以后怎么让前沿技术跟产业需求好好结合、把大家聚在一块儿搞创新,就是咱们接下来得琢磨的事了。