完全微调的CLIP模型是高效的小样本学习器

Jul, 2024

完全微调的CLIP模型是高效的小样本学习器

Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners

Mushui Liu, Bozheng Li, Yunlong Yu

TL;DR通过CLIP-CITE框架，我们在最小参数调整的情况下，通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识，有效地提升了特定任务在有限监督下的性能，同时保留了VLMs在其他数据集上的适应性。

Abstract

prompt tuning, which involves training a small set of parameters, effectively enhances the pre-trained vision-language models (VLMs) to downstrea

发现论文，激发创造

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于context optimization

Oct, 2021

CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

本研究提出了一项名为CLIP-TD的方法，对视觉-语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的CLIP-TD在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本/few-shot结果。

Mar, 2022

优化过的CLIP模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调CLIP模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

定位潜在更新用于微调视觉语言模型

提出一种轻量级的适配器方法，通过更新预测接近观察数据点的模型以加快更新速度，并保持经典微调方法外数据的正确性，以实现在小样本学习领域中，在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。

Dec, 2022

基于锚点的视觉语言模型的鲁棒微调

我们提出了一种补偿微调过程的方法，利用具有丰富语义信息的辅助监督作为锚点来保留原始的CLIP特征空间，从而保持了OOD泛化性能，并在领域迁移和零样本学习基准上取得了新的最先进结果。

Apr, 2024

CLIPArTT: 测试时基于新领域的CLIP轻量级适应

通过在推理过程中自动构建文本提示并使用其作为文本监督，CLIPArTT方法在不需要额外培训的情况下，通过独特的、最小侵入性的文本提示调优过程，使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。

May, 2024

通过简单参数高效修改对视觉-语言模型进行微调

本研究解决了视觉-语言模型（VLM）微调中经典方法的忽视问题，提出了一种新的视角，即只微调特定参数可以充分发挥经典微调的优势。我们提出的ClipFit方法通过仅调整特定的偏置项和归一化层，提高了零-shot CLIP的平均调和均值准确率7.27%。

Sep, 2024

可推广的视觉语言模型提示调整

本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角，并最大化它们的互信息，研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外，引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明，其在特定任务性能和一般能力方面均具竞争力。

Oct, 2024