大规模视觉语言适配器的稳健校准

Jul, 2024

大规模视觉语言适配器的稳健校准

Robust Calibration of Large Vision-Language Adapters

Balamurali Murugesan, Julio Silva-Rodriguez, Ismail Ben Ayed, Jose Dolz

TL;DR本文主要讨论了基于CLIP模型的调整中的关键问题——校准不准确，特别是在分布发生偏移的场景下的样本，这在现有的关于CLIP调整的文献中被忽视了。我们在实证中证明了常见的CLIP调整方法（如Adapters，Prompt Learning和Test-Time Adaptation）在分布漂移存在的情况下，极大地降低了零预测基线的校准能力。我们确定了逻辑概率范围的增加是导致CLIP调整方法校准不准确的根本原因，这与以前关于校准完全监督模型的工作相反。基于这些观察，我们提出了一个简单且模型无关的解决方案来减轻校准不准确，即将每个样本的逻辑概率范围缩放到其零预测逻辑概率上。我们尝试了三种不同的方法来实现这一目标，这些方法可以在调整过程中集成或直接在推理过程中使用。在流行的分布外分类基准实验中，全面的实验证明了所提方法在减轻校准不准确方面的有效性，同时保持有区分性能，在这种越来越流行的方法的三个类别中，改进是一致的。代码公开可用于：this https URL

Abstract

This paper addresses the critical issue of miscalibration in clip-based model adaptation, particularly in the challenging scenario of out-of-distribution (OOD) samples, which has been overlooked in the existing l