上海大学提出语义—几何令牌修剪新方法，提升多视角三维理解效率与精度

（问题）室内导航、机器人抓取、三维重建等任务中，机器需要通过多视角图像理解空间结构和物体关系。实际应用往往要输入十几张不同角度的图像，每张图像又会被切分成大量“视觉令牌”送入视觉模型。视角叠加后——令牌数量成倍增加——常达数千甚至接近一万，带来计算开销上升、时延变长、能耗增加等问题。更棘手的是，许多令牌来自墙面、地面等高度重复区域，信息密度低，却占用计算资源，还可能干扰模型对关键物体与空间关系的判断。（原因）当前常见的“减负”方式主要有两类：一是减少视角数量，但容易牺牲空间覆盖，遮挡区域或边角信息更容易缺失；二是沿用二维图像的压缩与简化策略，但三维任务不仅需要纹理与局部特征，更要保持几何一致性和跨视角对齐。也就是说，三维理解既要“看懂是什么”（语义），也要“弄清在哪里、如何对应”（几何）。如果仅做粗粒度删减，可能误删某些在单一视角并不显眼、却对回答“房间里有什么家具”“物体之间距离关系”等问题至关重要的区域，从而引入推理偏差。（影响）信息冗余和选择不当会直接拖累三项关键指标：一是效率，算力与时延限制会影响算法在端侧设备和实时系统中的落地；二是稳定性，在复杂光照与遮挡条件下，冗余信息可能放大噪声，使识别与定位结果更易波动；三是可扩展性，场景更大、视角更多、分辨率更高时，计算压力持续累积，限制三维视觉模型向更复杂任务延展。（对策）针对该矛盾，上海大学团队提出“语义—几何视觉令牌修剪器（SeGPruner）”。其核心思路是让模型在多视角处理中学会“保重点、顾全局”：一上，通过显著性感知的令牌选择机制，根据模型推理时的关注分布为令牌打分，优先保留更可能对应关键物体与结构线索的区域，从源头减少低价值的重复信息；另一方面，引入面向空间覆盖的几何约束，在跨视角存在重叠与遮挡时，避免筛选结果过度集中在少数“热点”，尽量维持不同方位与深度层次的必要覆盖，降低“只看显眼处、漏掉关键角落”的风险。该方法强调语义与几何协同：既保留“物体类别、属性”等高层线索，也兼顾跨视角一致性与空间布局，以更贴合三维场景理解需求。对应的论文已在预印本平台公开，并在计算机视觉前沿方向引发讨论。（前景）业内普遍认为，三维理解正从“堆更大模型”转向“把计算组织得更高效”。面向多视角、长序列输入的令牌筛选与压缩，是提升端到端效率的重要路径。SeGPruner体现的“语义—几何联合筛选”思路，有望在多视角问答、三维检测、场景重建等任务中扩展应用，并为具身智能、增强现实、数字孪生城市等需要实时响应的系统带来收益。下一步，如何在不同传感器模态间实现一致的令牌管理、如何在动态场景中保持筛选策略的稳健性，以及如何建立统一的评测体系，仍是该方向走向规模化应用需要解决的问题。

这项研究为多视角三维理解中的“令牌爆炸”问题提供了新的思路：与其把所有信息一股脑交给模型，不如更有策略地保留关键线索、压缩低价值重复内容。在三维视觉逐步走向端侧与实时应用的背景下，如何让模型更高效地“看重点、补盲区”，将直接影响其在真实场景中的可用性与上限。该成果也提示我们：智能不只来自“看得更多”，也来自“选得更准”。