Jun, 2024

视觉语言模型在开放环境下单张图像测试时间自适应的有效性

TL;DR我们提出了一个创新框架,用于在开放和动态环境中解决单图测试时间适应的现实挑战。我们利用大规模视觉语言模型(如 CLIP)在没有源数据或准确标签的情况下,实现了对每个图像的实时自适应。我们首先使用一个简单而有效的 OOD(外分布)检测模块区分弱 OOD 样本和强 OOD 样本,以应对部署模型可能遇到的未知类别。通过利用小而动态更新的特征库,我们提出了一种基于对比学习的目标函数,增强了弱 OOD 样本和强 OOD 样本之间的可区分性。最后,我们还使用可靠的弱 OOD 样本来实现模型的分类自适应。提出的 ROSITA 框架将这些组件结合起来,实现了视觉语言模型的连续在线自适应,且适用于单个图像。通过对不同领域自适应基准的广泛实验,验证了该框架的有效性。我们的代码可以在项目网址中找到(链接已省略)。