视觉语言模型的失误机会:视觉语言模型在线测试时间适应的比较研究
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的CLIP模型动态调整提示, 以最小化模型预测时的不确定度,提高CLIP模型的泛化能力。实验结果表明,TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
本研究通过将多尺度图像特征集成到提示中,提出了一种对于分布偏移具有鲁棒性的提示学习方法,实验结果表明,这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。
Apr, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了VLMs的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
通过研究大型视觉-语言模型,特别是CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增强的稳健均值漂移(MTA)方法,它超越了基于提示的方法,而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外,我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则(例如置信度阈值)来过滤增强视角。相反,MTA将每个视角的质量评估变量直接融入其优化过程中,称为内在得分。这个得分与密度模式寻找过程一起进行优化,从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试,并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上,展示了系统和一致的改进。
May, 2024
研究表明,零温度的TTA方法(ZERO)能够在只进行一次前向传播的情况下,准确性大大超过或与现有技术相当,且速度约为10倍快,内存占用约为13倍少。
May, 2024
本研究解决了将预训练模型适应开放类场景的挑战,尤其是在新类出现时提示的通用性不足问题。通过提出一种测试时提示调优的方法,利用最大概念匹配评分生成输入条件的提示,从而增强模型性能。实验表明,该方法在多个数据集上优于现有所有对比方法,具有显著提升效果。
Aug, 2024
本文针对预训练视觉-语言模型在下游任务适应性不足的问题,提出了一种新颖的方法,通过区域引导和轻量级内存机制,提升测试数据的适应性。研究表明,该方法在跨域和分布外的数据集上表现出色,展现了其在实际应用中的广泛潜力。
Oct, 2024