Jan, 2025
真实的测试时适应视觉语言模型
Realistic Test-Time Adaptation of Vision-Language Models
TL;DR本研究针对视觉语言模型(VLMs)在测试时适应中的假设强烈问题进行了探讨。我们提出了一种名为StatA的新方法,能够应对具有可变有效类别数量的适应场景,并通过引入特定于VLMs的正则化项来增强初始文本编码知识的保持。该方法在各种实际场景下显示出改进的适应能力,并证明现有方法在假设测试样本分布有利的情况下,往往削弱模型的零-shot 鲁棒性。