上海大学提出语义—几何令牌修剪新方法,提升多视角三维理解效率与精度

(问题)室内导航、机器人抓取、三维重建等任务中,机器需要通过多视角图像理解空间结构和物体关系。实际应用往往要输入十几张不同角度的图像,每张图像又会被切分成大量“视觉令牌”送入视觉模型。视角叠加后——令牌数量成倍增加——常达数千甚至接近一万,带来计算开销上升、时延变长、能耗增加等问题。更棘手的是,许多令牌来自墙面、地面等高度重复区域,信息密度低,却占用计算资源,还可能干扰模型对关键物体与空间关系的判断。 (原因)当前常见的“减负”方式主要有两类:一是减少视角数量,但容易牺牲空间覆盖,遮挡区域或边角信息更容易缺失;二是沿用二维图像的压缩与简化策略,但三维任务不仅需要纹理与局部特征,更要保持几何一致性和跨视角对齐。也就是说,三维理解既要“看懂是什么”(语义),也要“弄清在哪里、如何对应”(几何)。如果仅做粗粒度删减,可能误删某些在单一视角并不显眼、却对回答“房间里有什么家具”“物体之间距离关系”等问题至关重要的区域,从而引入推理偏差。 (影响)信息冗余和选择不当会直接拖累三项关键指标:一是效率,算力与时延限制会影响算法在端侧设备和实时系统中的落地;二是稳定性,在复杂光照与遮挡条件下,冗余信息可能放大噪声,使识别与定位结果更易波动;三是可扩展性,场景更大、视角更多、分辨率更高时,计算压力持续累积,限制三维视觉模型向更复杂任务延展。 (对策)针对该矛盾,上海大学团队提出“语义—几何视觉令牌修剪器(SeGPruner)”。其核心思路是让模型在多视角处理中学会“保重点、顾全局”:一上,通过显著性感知的令牌选择机制,根据模型推理时的关注分布为令牌打分,优先保留更可能对应关键物体与结构线索的区域,从源头减少低价值的重复信息;另一方面,引入面向空间覆盖的几何约束,在跨视角存在重叠与遮挡时,避免筛选结果过度集中在少数“热点”,尽量维持不同方位与深度层次的必要覆盖,降低“只看显眼处、漏掉关键角落”的风险。该方法强调语义与几何协同:既保留“物体类别、属性”等高层线索,也兼顾跨视角一致性与空间布局,以更贴合三维场景理解需求。对应的论文已在预印本平台公开,并在计算机视觉前沿方向引发讨论。 (前景)业内普遍认为,三维理解正从“堆更大模型”转向“把计算组织得更高效”。面向多视角、长序列输入的令牌筛选与压缩,是提升端到端效率的重要路径。SeGPruner体现的“语义—几何联合筛选”思路,有望在多视角问答、三维检测、场景重建等任务中扩展应用,并为具身智能、增强现实、数字孪生城市等需要实时响应的系统带来收益。下一步,如何在不同传感器模态间实现一致的令牌管理、如何在动态场景中保持筛选策略的稳健性,以及如何建立统一的评测体系,仍是该方向走向规模化应用需要解决的问题。

这项研究为多视角三维理解中的“令牌爆炸”问题提供了新的思路:与其把所有信息一股脑交给模型,不如更有策略地保留关键线索、压缩低价值重复内容。在三维视觉逐步走向端侧与实时应用的背景下,如何让模型更高效地“看重点、补盲区”,将直接影响其在真实场景中的可用性与上限。该成果也提示我们:智能不只来自“看得更多”,也来自“选得更准”。