Jul, 2024
大规模视觉语言适配器的稳健校准
Robust Calibration of Large Vision-Language Adapters
TL;DR本文主要讨论了基于CLIP模型的调整中的关键问题——校准不准确,特别是在分布发生偏移的场景下的样本,这在现有的关于CLIP调整的文献中被忽视了。我们在实证中证明了常见的CLIP调整方法(如Adapters,Prompt Learning和Test-Time Adaptation)在分布漂移存在的情况下,极大地降低了零预测基线的校准能力。我们确定了逻辑概率范围的增加是导致CLIP调整方法校准不准确的根本原因,这与以前关于校准完全监督模型的工作相反。基于这些观察,我们提出了一个简单且模型无关的解决方案来减轻校准不准确,即将每个样本的逻辑概率范围缩放到其零预测逻辑概率上。我们尝试了三种不同的方法来实现这一目标,这些方法可以在调整过程中集成或直接在推理过程中使用。在流行的分布外分类基准实验中,全面的实验证明了所提方法在减轻校准不准确方面的有效性,同时保持有区分性能,在这种越来越流行的方法的三个类别中,改进是一致的。代码公开可用于:this https URL