视觉语言模型易于执行时适应的令人沮丧的测试
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的CLIP模型动态调整提示, 以最小化模型预测时的不确定度,提高CLIP模型的泛化能力。实验结果表明,TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
提出一种测试时反馈方法来解决视觉-语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用CLIP作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化CLIP奖励为目标来进行单一测试样本的训练。经过广泛实验,证明了这种测试时反馈方法可以显著提高不同的视觉-语言模型的结果。
May, 2023
通过引入测试时间原型偏移(Test-Time Prototype Shifting,TPS)框架,我们在共享嵌入空间中调制每个类别的原型,动态地学习每个原型的偏移向量,从而弥合领域差距,提高分类准确性,并在减少资源需求的情况下取得创新性能的优势。
Mar, 2024
通过研究大型视觉-语言模型,特别是CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增强的稳健均值漂移(MTA)方法,它超越了基于提示的方法,而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外,我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则(例如置信度阈值)来过滤增强视角。相反,MTA将每个视角的质量评估变量直接融入其优化过程中,称为内在得分。这个得分与密度模式寻找过程一起进行优化,从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试,并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上,展示了系统和一致的改进。
May, 2024
对视觉-语言模型的测试时间适应性策略进行系统探索,包括提示工程策略和现有的测试时间适应方法,以提高模型在真实场景中的适应性和鲁棒性。
May, 2024
近期关于Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了Low-Rank Adaptation(LoRA)在少样本适应学习中,并在11个数据集上展示了其潜力,与最先进的基于prompt和adapter的方法进行对比。令人惊讶的是,我们的简单CLIP-LoRA方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本VLMs中这些新兴主题的进展。
May, 2024
我们提出了一种名为BaFTA的新型零样本学习算法,通过在投影嵌入空间中使用在线聚类来估计类别质心并动态地聚合预测,从而在效果和效率上持续优于最先进的测试时间自适应方法。
Jun, 2024
本文针对预训练视觉-语言模型在下游任务适应性不足的问题,提出了一种新颖的方法,通过区域引导和轻量级内存机制,提升测试数据的适应性。研究表明,该方法在跨域和分布外的数据集上表现出色,展现了其在实际应用中的广泛潜力。
Oct, 2024