视觉语言预训练的改进基线

May, 2023

Improved baselines for vision-language pre-training

Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal

TL;DR本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

Abstract

contrastive learning has emerged as an efficient framework to learn multimodal representations. clip, a seminal work in this area, achieve

发现论文，激发创造

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于context optimization

Oct, 2021

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现60.4%的零样本top1准确率，并在转化到下游任务时优于常规CLIP模型。

Oct, 2021

CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

本研究提出了一项名为CLIP-TD的方法，对视觉-语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的CLIP-TD在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

使用语言改写改善CLIP训练

本文提出了一种名为LaCLIP的新方法，通过语言重写增强CLIP的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像-文本转移性能。

May, 2023

理解CLIP中的可迁移表征学习和零射击迁移

通过对CLIP的理论研究，我们证明了多模态学习的可转移表示学习，并分析了其在零样本学习和下游任务中的性能。在此基础上，我们提出了一种新的CLIP类型方法，在基准数据集上实现了比CLIP和其他最先进方法更好的性能。

Oct, 2023

多模态LLM的视觉缺陷探究

通过对CLIP模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与MLLMs相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

高效对比语言-图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高Contrastive Language-Image Pre-training模型的泛化性能，并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明，我们的子集相比其他基线方法，可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度，同时，在11个下游数据集中平均准确度达到其他基线方法的1.5倍。

Mar, 2024

RankCLIP: 语言-图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP在扩展CLIP的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

语义组合提升视觉-语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024