May, 2023
视觉语言模型零样本泛化的测试时间自适应与CLIP奖励
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models
TL;DR提出一种测试时反馈方法来解决视觉-语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用CLIP作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化CLIP奖励为目标来进行单一测试样本的训练。经过广泛实验,证明了这种测试时反馈方法可以显著提高不同的视觉-语言模型的结果。