CLIP能为视觉语言任务带来多大的效益？

Jul, 2021

CLIP能为视觉语言任务带来多大的效益？

How Much Can CLIP Benefit Vision-and-Language Tasks?

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach...

TL;DR研究了在视觉与语言任务中使用大规模预训练模型CLIP作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与V&L相结合传递到下游任务，CLIP显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了Visual Question Answering，Visual Entailment和V&L Navigation等任务的新高峰。

Abstract

Most existing Vision-and-Language (V&L) models rely on pre-trained visual encoders, using a relatively small set of manually-annotated data (as compared to web-crawled data), to perceive the visual world. However, it has been observed that large-scale pretraining usually can result in better generalization performance, e.g., →

发现论文，激发创造

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为VT-CLIP的方法来增强CLIP模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

本研究提出了一项名为CLIP-TD的方法，对视觉-语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的CLIP-TD在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本/few-shot结果。

Mar, 2022

标题：标题值得1000张图片？控制学习的研究

通过比较图像和语言数据的传输表现，研究证明，当预训练数据集足够大而又包含了低变异性的描述性标题时，对于分类任务来说，仅使用图像的方法不能与CLIP的传输性能相匹配。

Jul, 2022

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于CLIP的OmniSource跨模态学习方法，称为CLIP-ViP，通过视频代理机制改进后续预训练CLIP，从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。

Sep, 2022

从CLIP到DINO：多模式大型语言模型中的视觉编码器喊出来

该研究通过对多模态大型语言模型（MLLMs）中不同视觉编码器的有效性进行深入调查，发现了CLIP的浅层特征在细粒度任务（如定位和区域理解）中具有特殊优势。同时，研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能，只需为其配备一个MLP层进行对齐，DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果，研究提出了一种简单而有效的特征融合策略，称为COMM，它通过多层次特征融合将CLIP和DINO结合起来，以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能，展示了其在MLLMs中增强的视觉能力。

Oct, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在CLIP训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

完全微调的CLIP模型是高效的小样本学习器

通过CLIP-CITE框架，我们在最小参数调整的情况下，通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识，有效地提升了特定任务在有限监督下的性能，同时保留了VLMs在其他数据集上的适应性。

Jul, 2024

关于CLIP模型稳健性全面评估的研究

本研究针对CLIP模型在分类稳健性方面的评估，提出了一种更为全面的评估方法。通过分析视觉因素变化、信心不确定性、超出分布检测和3D意识等多个维度，发现模型架构对3D损坏的稳健性影响显著，同时识别出CLIP模型在预测时有形状偏倚的问题，从而为提升其稳健性与可靠性提供了重要指导。

Oct, 2024