关于视觉语言模型的测试时零样本泛化：我们真的需要提示学习吗？

May, 2024

关于视觉语言模型的测试时零样本泛化：我们真的需要提示学习吗？

On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning?

Maxime Zanella, Ismail Ben Ayed

TL;DR通过研究大型视觉-语言模型，特别是CLIP，有效的调整技术，主要关注软提示调整，这催生了一系列研究。与此同时，测试时数据增强正在成为一个重要的研究领域，它利用图像的多个增强视角来增强零样本泛化能力。相反，我们提出了一种用于测试时数据增强的稳健均值漂移（MTA）方法，它超越了基于提示的方法，而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外，我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则（例如置信度阈值）来过滤增强视角。相反，MTA将每个视角的质量评估变量直接融入其优化过程中，称为内在得分。这个得分与密度模式寻找过程一起进行优化，从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试，并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上，展示了系统和一致的改进。

Abstract

The development of large vision-language models, notably clip, has catalyzed research into effective adaptation techniques, with a particular focus on →