CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

Jan, 2022

CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks

Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Jianwei Yang...

TL;DR本研究提出了一项名为CLIP-TD的方法，对视觉-语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的CLIP-TD在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Abstract

Contrastive language-image pretraining (clip) links vision and language modalities into a unified embedding space, yielding the tremendous potential for vision-language (VL) tasks. While early concurrent works have begun to study this potential on a subset of tasks, important questions

发现论文，激发创造

CLIP能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型CLIP作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与V&L相结合传递到下游任务，CLIP显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了Visual Question Answering，Visual Entailment和V&L Navigation等任务的新高峰。

Jul, 2021

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为VT-CLIP的方法来增强CLIP模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本/few-shot结果。

Mar, 2022

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于CLIP的OmniSource跨模态学习方法，称为CLIP-ViP，通过视频代理机制改进后续预训练CLIP，从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。

Sep, 2022

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

从CLIP到DINO：多模式大型语言模型中的视觉编码器喊出来

该研究通过对多模态大型语言模型（MLLMs）中不同视觉编码器的有效性进行深入调查，发现了CLIP的浅层特征在细粒度任务（如定位和区域理解）中具有特殊优势。同时，研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能，只需为其配备一个MLP层进行对齐，DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果，研究提出了一种简单而有效的特征融合策略，称为COMM，它通过多层次特征融合将CLIP和DINO结合起来，以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能，展示了其在MLLMs中增强的视觉能力。

Oct, 2023

CLIPArTT: 测试时基于新领域的CLIP轻量级适应

通过在推理过程中自动构建文本提示并使用其作为文本监督，CLIPArTT方法在不需要额外培训的情况下，通过独特的、最小侵入性的文本提示调优过程，使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。

May, 2024

完全微调的CLIP模型是高效的小样本学习器

通过CLIP-CITE框架，我们在最小参数调整的情况下，通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识，有效地提升了特定任务在有限监督下的性能，同时保留了VLMs在其他数据集上的适应性。

Jul, 2024

CLIP-CID：通过集群-实例区分实现高效的CLIP蒸馏

本研究解决了CLIP模型预训练数据量大导致计算资源消耗的问题，提出了一种名为CLIP-CID的新型蒸馏机制。此方法通过图像语义平衡和集群-实例区分，有效提升了知识转移效率，并在多个下游任务中达到了最先进的性能。

Aug, 2024