最近生数科技在2026中关村论坛的人工智能主题日上放了个大招,直接拿出了他们的通用世界模型战略,这算是把AGI(通用人工智能)往那一步推了一把。虽然这策略是双轨并行的,但是核心还是那个用全球首创的U-ViT架构打造出来的基座世界模型。这基座能把视觉、听觉、触觉这些多模态的信息揉在一起,让机器也能像人一样去感知这个世界。 到了数字空间那边,生数科技用了个叫世界生成模型(WGM)的玩意儿,搞出了一个叫Vidu的视频大模型。这玩意儿就像个数字世界的大笔杆子,通过单时点模拟和流式生成这两种方式,大大提高了数字内容的产出速度。说白了就是想让数字世界里的AI也变得更聪明点。 而在物理空间这块儿,生数科技又基于世界行动模型(WAM)弄出了一个叫Motus的统一世界模型。这东西就像是机器人的大脑,专门用来解决传统具身智能那种数据少、泛化能力差的问题。它通过视频来当数据的核心,哪怕没有太多标注的数据也能学会怎么动手操作。 在长距离或者多步骤的复杂任务里,Motus表现出的决策逻辑和执行稳定性已经和人差不多了。这就意味着生数科技在机器人这块儿的技术已经摸到了门道,为以后机器人技术的发展铺好了路。 生数科技还觉得视频是目前最像真世界的数据形态,所以他们搞了个以视频为核心的数据金字塔。从网上的海量视频到机器人自己收集的第一视角操作视频全都往里塞。这种策略直接打破了具身智能一直以来面临的“数据墙”,给AGI的发展找到了新路子。 现在这个通用世界模型把理解世界、生成世界还有行动于世界这三个步骤连成了一个环。未来几年它肯定能在很多真实产业里派上用场。你觉得它会在哪个领域先取得突破呢?