Tip-Adapter:面向视觉语言模型的无需训练的 CLIP 适配器
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
提出了 Meta-Adapter 方法,它是一种轻量级的残差式适配器,通过在线学习利用少量样本来优化 CLIP 特征,从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力,并取得了竞争性的性能和高效率。
Nov, 2023
我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法,通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本,并利用这些选择的样本生成类别原型,用于可学习的原型模型的初始化。经过微调后,通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合,用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明,所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。
Aug, 2023
通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
对比语言 - 图像预训练(CLIP)已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能,其中包括提示学习和适配器。然而,这些方法仍然需要额外的训练时间和计算资源,对于资源有限的设备来说并不理想。因此,我们重新审视了经典算法高斯判别分析(GDA),应用它于 CLIP 的下游分类中。通过利用贝叶斯公式,高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将 GDA 与 CLIP 中的原始零 - shot 分类器进行集成,以融合视觉和文本模态的知识。对 17 个数据集进行广泛的实验证明,我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外,我们还将我们的方法扩展到基于新类别的推理和无监督学习,再次展示了其优越性。我们的代码在 https://github.com/mrflogs/ICLR24 上公开可用。
Feb, 2024
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
CapS-Adapter 是一种创新方法,通过利用图像和字幕特征构建接近目标分布的支持集,超越现有的最先进技术,实现了在无需训练的情况下的显着零样本分类改进。
May, 2024
本文提出了一种名为 CALIP 的方法,通过一个无需参数的关注模块,在不增加额外的训练开销和数据需求的情况下提高 Contrastive Language-Image Pre-training 的零样本性能。
Sep, 2022
使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。
Aug, 2023