本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
对视觉 - 语言模型的测试时间适应性策略进行系统探索,包括提示工程策略和现有的测试时间适应方法,以提高模型在真实场景中的适应性和鲁棒性。
May, 2024
通过概念引导提示学习的方式,CPL 方法显著提高了通用化性能。
Jan, 2024
通过测试样本的无监督目标,在视觉识别任务中使用上下文提示学习来适应预训练的视觉 - 语言模型,并取得了在各种下游数据集上的有效结果。
Mar, 2024
我们提出了 CLIP-ICM(Invariant Causal Mechanism of CLIP)算法,该算法旨在通过干预数据来可靠地识别不变的潜在因素,并在各个领域中实现准确的预测。理论分析表明,我们的方法在分布外(OOD)场景中具有较低的泛化下界,实验结果展示了 CLIP-ICM 的卓越性能。
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
视觉语言模型通过大规模训练数据学习了一种通用的文本 - 图像嵌入。通过少量样本的提示调整,可以将视觉语言模型适应到新的分类任务中。我们发现,这种提示调整过程对标签噪声非常稳健,且具有鲁棒性。
Jul, 2023
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
Jun, 2024
通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
通过多模态提示学习来提高图像和文本特征的对齐度,利用预训练的 CLIP 强大的泛化能力,引导模型在对抗性示例上增强鲁棒泛化能力,同时在干净示例上保持准确性。