CLIP-Adapter: 特征适配器提升视觉语言模型
该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型,通过无需训练的键值缓存模型构建配适器权重,极大地提升了 CLIP 的少样本分类能力。
Nov, 2021
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示,在ImageNet以及其他10个数据集上,与原始CLIP相比,UPL具有更优秀的传输表现,并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。
Apr, 2022
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
通过在图像编码器之后或文本编码器之前在预训练的CLIP模型上增加附加层,我们提出了一种利用预训练视觉-语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改CLIP文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案——一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
提出了Meta-Adapter方法,它是一种轻量级的残差式适配器,通过在线学习利用少量样本来优化CLIP特征,从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力,并取得了竞争性的性能和高效率。
Nov, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了VLMs的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
通过CLIP-CITE框架,我们在最小参数调整的情况下,通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识,有效地提升了特定任务在有限监督下的性能,同时保留了VLMs在其他数据集上的适应性。
Jul, 2024
本研究针对现有的轻量级适配方法在视觉和文本表征之间缺乏互动的问题,提出了一种名为多模态适配器的新方法。通过引入可训练的多头注意力层,该方法有效结合了图像和文本特征,实现了更好的模型通用性,并在未见类别上的表现优于现有的适配方法。
Sep, 2024