破解多模态模型“盲目自信”顽疾浙大等提出置信度校准与推理调度新框架

（问题）多模态模型问答、检索、图表理解等场景的应用不断扩展，但可靠性问题也越来越受关注。研究团队在实验中对输入图像逐级加入噪声，使其从清晰逐步退化到几乎不可辨，同时监测模型输出的准确率与置信度。结果发现——图像越模糊——模型准确率出现“断崖式”下滑，但置信度却长期维持在高位，体现为“看不清仍很确定”的现象。团队将其概括为“感知钝化”，并指出它与复杂视觉推理中的幻觉和误判密切涉及的：当证据不足时，模型仍倾向给出高确定性的结论，从而带来更高的系统性风险。（原因）研究认为，“感知钝化”的关键在于模型对视觉证据质量变化不够敏感，也缺乏对自身不确定性的表达能力。在多模态推理中，模型往往同时依赖视觉线索与语言先验；当视觉信息因噪声、遮挡、视角变化等被削弱时，语言先验可能主导推理过程，导致模型在证据不足的情况下仍输出看似自洽的答案。由于训练目标通常更强调“答对”，而不是“知道何时不该确信”，模型置信度与真实正确率容易脱节，形成“高自信、低准确”的结构性矛盾。（影响）这种偏离不只是评测指标层面的问题，还会直接影响多模态系统在教育辅导、工业质检、医疗影像辅助、公共服务等领域的可用性与安全性。尤其在高风险场景中，错误结论若以高置信度呈现，更容易误导使用者决策，降低人工复核意愿，并放大后续连锁影响。换句话说，模型“是否知道自己不知道”，正成为多模态技术走向规模化落地的一道关键门槛。（对策）针对上述挑战，研究团队提出“置信度感知的测试时扩展框架”（CA-TTS），并以“置信度驱动的强化学习”（CDRL）作为训练阶段的核心方法：先让置信度能够更真实地反映证据质量，再将其用于推理阶段的计算与策略调度。在训练阶段，CDRL并不只追求更高准确率，而是引导模型在“看得清”和“看不清”两种条件下，输出与证据强弱相匹配的置信度。具体做法是让模型同时处理同一问题的原始图像与加噪图像，并通过强化学习优化双重奖励机制：一上鼓励模型对视觉退化更敏感，清晰与退化输入之间形成合理的置信度差异；另一上约束校准一致性，对“预测正确且高置信度”给予正向反馈，对“预测错误但仍高置信度”施加惩罚。为提高扰动的针对性，团队从多个公开基准筛选样本，并借助视觉注意区域定位关键证据区域，使噪声更集中作用于影响推理的视觉部分，以检验并强化模型对关键信息缺失的反应能力。研究结果显示，经CDRL训练后，模型在噪声、遮挡等扰动条件下的置信度下降更符合证据退化规律，置信度对视觉质量变化的响应幅度明显提升；同时，衡量校准程度的相关指标也同步改善，表明模型的“自我评估”更可靠。在推理阶段，CA-TTS更把“更可信的置信度”转化为资源分配与流程控制信号，强调“把算力用在不确定处”。框架通过多个协同环节提升稳健性：其一，生成多个候选答案后进行置信度加权聚合，并引入外部校准机制二次评估，避免简单投票带来的虚假一致；其二，当初步置信度不足时，引入“反思式”批评与纠错，促使模型跳出既有的错误推理路径，降低反复自洽的风险；其三，从视觉层面进行一致性核验，通过对比原始图像与退化图像下输出支持度的变化，检查答案是否真正依赖视觉证据，从机制上抑制“脱离图像也能讲得很像”的情况。团队在多项主流视觉推理基准上报告了明显提升，并指出增益主要来自校准与调度策略，而非基础模型差异。（前景）业内普遍认为，多模态技术正从“能用”走向“可信、可控”。这项研究的启示在于：提升模型能力不仅要提高准确率，还要加强不确定性表达、证据敏感性以及推理过程的可审查性。未来，相关方法有望与安全评测、数据治理和行业标准结合，推动形成更可量化的可信指标体系；在端侧部署、复杂场景泛化、跨模态对齐等方向，置信度校准与推理调度也可能成为降低成本、提升可靠性的关键手段。

这项研究不仅为多模态人工智能提供了更可靠的置信度评估思路，也凸显了智能系统“自知之明”的价值。在人工智能加速进入各类应用场景的背景下，如何让机器更清楚地识别认知边界、合理表达不确定性，已成为关系技术安全与伦理的重要议题。该成果为构建更可信、更负责任的人工智能系统提供了可落地的技术路径，其方法论意义也可能延伸至视觉推理之外，为更广泛的AI系统可靠性建设提供借鉴。

破解多模态模型“盲目自信”顽疾 浙大等提出置信度校准与推理调度新框架

破解多模态模型“盲目自信”顽疾浙大等提出置信度校准与推理调度新框架