视觉语言模型的失误机会:视觉语言模型在线测试时间适应的比较研究
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
我们提出了一个创新框架,用于在开放和动态环境中解决单图测试时间适应的现实挑战。我们利用大规模视觉语言模型(如 CLIP)在没有源数据或准确标签的情况下,实现了对每个图像的实时自适应。我们首先使用一个简单而有效的 OOD(外分布)检测模块区分弱 OOD 样本和强 OOD 样本,以应对部署模型可能遇到的未知类别。通过利用小而动态更新的特征库,我们提出了一种基于对比学习的目标函数,增强了弱 OOD 样本和强 OOD 样本之间的可区分性。最后,我们还使用可靠的弱 OOD 样本来实现模型的分类自适应。提出的 ROSITA 框架将这些组件结合起来,实现了视觉语言模型的连续在线自适应,且适用于单个图像。通过对不同领域自适应基准的广泛实验,验证了该框架的有效性。我们的代码可以在项目网址中找到(链接已省略)。
Jun, 2024
通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉 - 语言模型的稳健性,并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。
Nov, 2023
为了使现有的视觉模型适应于不同的下游场景,本文探讨了在线测试时间自适应方法在各种真实世界场景下的表现,并针对该方法的局限性提出了一种特别保守的方法 —— 使用 LAME 目标来解决问题,并通过高效的凸凹过程求解该目标,从而使其在场景中表现更佳。
Jan, 2022
对 11 种广泛使用的适应方法在 4 个视觉语言数据集中的鲁棒性进行了评估,发现适应方法对于文本污染比视觉污染更敏感,完整的微调并不能始终提供最高的鲁棒性,而适配器可以在可比较的干净表现下实现更好的鲁棒性,增加适应数据和参数的数量并不能保证增强鲁棒性,相反,会导致鲁棒性降低。
Jun, 2023
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性,结果表明,保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略,使用较少的训练数据(20 万张图像,相较于 72 万张),在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中,该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。
Feb, 2024
提出一种测试时反馈方法来解决视觉 - 语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用 CLIP 作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化 CLIP 奖励为目标来进行单一测试样本的训练。经过广泛实验,证明了这种测试时反馈方法可以显著提高不同的视觉 - 语言模型的结果。
May, 2023