BaFTA:零样本视觉语言模型的无反向传播测试时适应
提出一种测试时反馈方法来解决视觉 - 语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用 CLIP 作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化 CLIP 奖励为目标来进行单一测试样本的训练。经过广泛实验,证明了这种测试时反馈方法可以显著提高不同的视觉 - 语言模型的结果。
May, 2023
研究表明,零温度的 TTA 方法(ZERO)能够在只进行一次前向传播的情况下,准确性大大超过或与现有技术相当,且速度约为 10 倍快,内存占用约为 13 倍少。
May, 2024
使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。
Aug, 2023
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
对视觉 - 语言模型的测试时间适应性策略进行系统探索,包括提示工程策略和现有的测试时间适应方法,以提高模型在真实场景中的适应性和鲁棒性。
May, 2024
通过研究大型视觉 - 语言模型,特别是 CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增强的稳健均值漂移(MTA)方法,它超越了基于提示的方法,而无需进行繁琐的训练过程。此方法是独立和基于 API 的应用的理想解决方案。此外,我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则(例如置信度阈值)来过滤增强视角。相反,MTA 将每个视角的质量评估变量直接融入其优化过程中,称为内在得分。这个得分与密度模式寻找过程一起进行优化,从而实现了一种高效的无需训练和调整超参数的方法。我们在 15 个数据集上进行了广泛的基准测试,并展示了 MTA 的优越性和计算效率。MTA 可以轻松部署在零样本模型和最新的少样本方法之上,展示了系统和一致的改进。
May, 2024
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的 CLIP 模型动态调整提示, 以最小化模型预测时的不确定度,提高 CLIP 模型的泛化能力。实验结果表明,TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT 方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉 - 语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
通过测试样本的无监督目标,在视觉识别任务中使用上下文提示学习来适应预训练的视觉 - 语言模型,并取得了在各种下游数据集上的有效结果。
Mar, 2024