完全微调的CLIP模型是高效的小样本学习器
本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于context optimization
Oct, 2021
本研究提出了一项名为CLIP-TD的方法,对视觉-语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的CLIP-TD在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文实证表明,CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本/few-shot结果。
Mar, 2022
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022
我们提出了一种补偿微调过程的方法,利用具有丰富语义信息的辅助监督作为锚点来保留原始的CLIP特征空间,从而保持了OOD泛化性能,并在领域迁移和零样本学习基准上取得了新的最先进结果。
Apr, 2024
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
本研究解决了视觉-语言模型(VLM)微调中经典方法的忽视问题,提出了一种新的视角,即只微调特定参数可以充分发挥经典微调的优势。我们提出的ClipFit方法通过仅调整特定的偏置项和归一化层,提高了零-shot CLIP的平均调和均值准确率7.27%。
Sep, 2024
本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角,并最大化它们的互信息,研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外,引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明,其在特定任务性能和一般能力方面均具竞争力。
Oct, 2024