大型视觉语言模型的少样本自适应研究
近期关于 Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑 Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了 Low-Rank Adaptation(LoRA)在少样本适应学习中,并在 11 个数据集上展示了其潜力,与最先进的基于 prompt 和 adapter 的方法进行对比。令人惊讶的是,我们的简单 CLIP-LoRA 方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本 VLMs 中这些新兴主题的进展。
May, 2024
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
Jun, 2024
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022
通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法,通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本,并利用这些选择的样本生成类别原型,用于可学习的原型模型的初始化。经过微调后,通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合,用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明,所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。
Aug, 2023
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。
Aug, 2023
本文介绍了一种名为 Prompt-augmented Linear Probing (PALP) 的方法,它是一种线性探测和上下文学习 (ICL) 的混合体,利用这两种方法的最佳部分。PALP 通过将输入数据整理成更可理解的形式来使语言模型获得更有意义的表示,并提高输入表示的能力,缩小了 ICL 和 fine-tuning 之间的差距。
Dec, 2022