本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于context optimization
Oct, 2021
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
本文提出了一种名为CALIP的方法,通过一个无需参数的关注模块,在不增加额外的训练开销和数据需求的情况下提高Contrastive Language-Image Pre-training的零样本性能。
Sep, 2022
本文介绍了一种基于SuS和TIP-X两种算法的训练-Free的Zero-Shot分类方法,不需要昂贵的标签数据或复杂的fine-tuning过程便可在19个基准数据集上达到最先进的结果,进一步证明了TIP-X在训练-Free Few-Shot学习中的实用性。
Nov, 2022
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022
提出了Meta-Adapter方法,它是一种轻量级的残差式适配器,通过在线学习利用少量样本来优化CLIP特征,从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力,并取得了竞争性的性能和高效率。
Nov, 2023
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
CapS-Adapter是一种创新方法,通过利用图像和字幕特征构建接近目标分布的支持集,超越现有的最先进技术,实现了在无需训练的情况下的显着零样本分类改进。
本研究针对现有的轻量级适配方法在视觉和文本表征之间缺乏互动的问题,提出了一种名为多模态适配器的新方法。通过引入可训练的多头注意力层,该方法有效结合了图像和文本特征,实现了更好的模型通用性,并在未见类别上的表现优于现有的适配方法。
Sep, 2024
本研究解决了如何将对比预训练的视觉语言模型CLIP适应于少样本分类的问题。我们提出了一种新的方法,通过微调视觉编码器的最后投影矩阵,而不引入额外的优化参数,从而在多个基准测试中获得与现有最优方案相当或更优的性能。这一方法可能会推动少样本分类和领域泛化的研究前沿。
Oct, 2024