CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性

Apr, 2024

CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi...

TL;DR通过对网络规模的图像文本数据进行弱监督预训练，本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法，在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明，该方法在各种视觉任务中具有高质量的表征。

Abstract

contrastive learning has emerged as a transformative method for learning effective visual representations through the alignment of image and text embeddings. However, pairwise similarity computation in contrastiv

contrastive learning visual representations weakly supervised pre-training acceleration in training speed representation quality

发现论文，激发创造

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

中文 CLIP：中文对比视觉 - 语言预训练

该研究使用中文数据构建巨大的图像文本配对数据集，并使用其预训练中文 CLIP 模型，该模型能够在零 - shot 学习和微调设置下，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平，并能够在 ELEVATER 基准测试中实现竞争性能。

Nov, 2022

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型 Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于 CLIP 等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

CyCLIP: 循环对比语言 - 图像预训练

介绍了一种改进的对比表示学习框架 CyCLIP，通过显式对图像和文本空间的几何一致性进行优化，提高了模型的一致性和表现在零样本分类和分布不变性方面。在标准基准测试中，与 CLIP 相比，零样本分类准确率和对自然分布变化的鲁棒性分别提高了 10%-24% 和 10%-27%。

May, 2022

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

消除 CLIP 数据的神秘

以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP，在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果，MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率，并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。

Sep, 2023