使用语言改写改善CLIP训练

May, 2023

Improving CLIP Training with Language Rewrites

Lijie Fan, Dilip Krishnan, Phillip Isola, Dina Katabi, Yonglong Tian

TL;DR本文提出了一种名为LaCLIP的新方法，通过语言重写增强CLIP的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像-文本转移性能。

Abstract

Contrastive Language-Image Pre-training (clip) stands as one of the most effective and scalable methods for training transferable vision models using paired image and text data. clip models are trained using

发现论文，激发创造

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现60.4%的零样本top1准确率，并在转化到下游任务时优于常规CLIP模型。

Oct, 2021

CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

本研究提出了一项名为CLIP-TD的方法，对视觉-语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的CLIP-TD在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

RECLIP: 使用小尺寸图片训练的资源高效CLIP

本文介绍了一种名为RECLIP的方法，其最小化了用于Contrastive Language Image Pretraining的计算资源，实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督，并在最后使用高分辨率数据进行微调，以降低训练资源要求，并展示了与现有方法相比极具竞争力的指标表现。

Apr, 2023

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出ReCLIP方法，第一个无需源数据或目标标记数据的视觉-语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在22个图像分类基准测试中将CLIP的平均错误率从30.17%降低到25.06%。

Aug, 2023

从稀缺到高效：通过视觉丰富的标题改进CLIP训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于web爬取数据集训练的新方法VeCLIP，通过综合评估数据效率和模型性能，证明了VeCLIP在改善图片-文本对齐和整体模型性能方面的显著优势。

Oct, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在CLIP训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

高效对比语言-图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高Contrastive Language-Image Pre-training模型的泛化性能，并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明，我们的子集相比其他基线方法，可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度，同时，在11个下游数据集中平均准确度达到其他基线方法的1.5倍。

Mar, 2024

RWKV-CLIP：一个稳健的视觉-语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言-图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像-文本对时。通过引入多样化的描述生成框架，该研究提出了RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了RWKV-CLIP是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像-文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024