(问题)室内视频中回答“垃圾桶在电话的哪个方向”等问题,对人类来说往往凭直觉就能完成:大脑会把视野变化与记忆整合起来,形成相对稳定的空间布局,再据此判断物体的相对位置。但对当前多模态大模型而言,这类看似基础的三维空间推理仍是短板。实际应用中,一些模型在处理视角不断变化的视频时容易出现“只见局部、不见整体”:它们更擅长描述单帧里“看到了什么”,却难以在连续画面中建立统一坐标和整体结构,导致方向判断、远近关系、遮挡后重识别等任务表现不稳定。 (原因)研究团队认为,问题关键在于模型处理视频三维空间时,往往过度依赖二维图像线索和瞬时视角信息,缺少对“环境中心”空间框架的持续建模。与人类空间认知相比,模型更多停留在“自我中心”的描述方式——随镜头位置与朝向变化而改变,使同一物体在不同帧中难以统一到稳定的空间图谱中。认知科学研究表明,人类空间推理会在“自我中心坐标系”和“环境中心坐标系”之间灵活切换:初入环境时会说“在我左边/右边”,熟悉后更倾向“靠窗一侧/门口附近”等更稳定的表达。后者不随观察者移动而漂移,更适合支撑复杂推理。团队据此提出,提升模型空间理解的关键,是让模型先形成可共享、可累积的全局空间表征,再进行问答与推断。 (影响)基于上述思路,清华大学人工智能学院联合上海人工智能实验室和东京大学团队提出TRACE(Textual Representation of Allocentric Context from Egocentric Video)方法,并于2026年3月24日发布有关论文(arXiv:2603.23404v1)。该方法的核心是把“第一人称视频”转化为“环境中心的文本化空间记录”,相当于为模型提供一套可持续更新的“空间笔记”。这套笔记围绕三个要素组织:其一,建立房间或场景基础档案,明确整体形状、主要结构走向与参考方向;其二,记录摄像机或观察者的运动轨迹,将关键位置与朝向变化标注到时间线上;其三,持续整理环境中物体的信息与相对关系,使不同时间看到的局部内容能够归并到同一空间框架下。通过“先建图、后推理”的流程,模型在回答“物体相对方向”“物体间距离与遮挡关系”“从A点到B点如何移动”等任务时,有望减少对单帧猜测的依赖,更多依托全局一致的空间记忆,从而提升稳定性与可解释性。 此方向的意义不止体现在问答准确率提升,更在于补齐多模态系统走向真实世界应用所需的关键能力。随着具身智能、服务机器人、智能座舱与AR交互等场景加速落地,系统需要在动态视角下持续理解环境,并能用自然语言向人类说明“为何这样判断、下一步打算怎么走”。将空间表征以文本方式组织,有助于在模型内部形成更清晰的推理链条,也便于后续进行安全审计、行为回溯与任务纠偏。 (对策)从研究路径看,TRACE提供了一种可工程化推进的思路:用结构化、可累积的文本表征,连接“视频流感知”与“语言推理”。业内专家指出,后续推进可从三上着力:一是完善场景基准与评测体系,尤其覆盖遮挡、重复物体、狭小空间转身、光照变化等真实难点的测试集合,避免模型只在“简单房间”里表现良好;二是提升坐标系建立与漂移纠正能力,确保长视频和大场景下的空间一致性,减少参照物不稳带来的误差累积;三是探索与机器人定位、三维重建等模块的协同,让语言层面的空间笔记与几何层面的地图相互校验,提高鲁棒性与落地性。 (前景)综合来看,多模态大模型正从“看懂一帧”走向“理解一个空间”,空间推理能力将成为影响产业应用的重要分水岭。TRACE所代表的“环境中心表征+文本化记录”路线,为构建可解释、可迁移、可对话的空间智能提供了新的思路。未来若能在更复杂的真实场景中验证其泛化能力,并与感知、规划、控制等环节更融合,相关成果有望在室内导航、应急搜救辅助、智能运维巡检以及面向大众的交互式空间问答等领域释放更大价值。
这项研究为提升多模态模型的三维空间理解提供了新的技术路径,有望缓解视频空间推理中“只见局部、不见整体”的瓶颈,并推动认知科学思路与人工智能方法的继续结合;正如研究团队所言:“理解空间是人类智能的基础,教会机器‘看世界’的方式,将推动人机交互进入全新阶段。”随着涉及的方法在更复杂场景中验证并与工程系统融合,其潜在应用价值值得持续关注。