RankCLIP: 语言-图像一致的排序预训练

Apr, 2024

RankCLIP: 语言-图像一致的排序预训练

RankCLIP: Ranking-Consistent Language-Image Pretraining

Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding...

TL;DR通过在大量文本图像对上进行自我监督的对比学习，RankCLIP在扩展CLIP的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。

Abstract

Among the ever-evolving development of vision-language models, contrastive language-image pretraining (CLIP) has set new benchmarks in many downstream tasks such as zero-shot classifications by leveraging self-su

发现论文，激发创造

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现60.4%的零样本top1准确率，并在转化到下游任务时优于常规CLIP模型。

Oct, 2021

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

PyramidCLIP：视觉语言模型预训练的分层特征对齐

PyramidCLIP通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能，并在不同的数据集上取得了极具竞争力的结果。

Apr, 2022

ComCLIP: 无须训练的图文组合匹配

本文通过提出一种新颖的训练免费的组合CLIP模型 (ComCLIP) 来解决复合图像和文本匹配的问题，通过将输入图像分解为主题、对象和动作子图像，并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配，从而实现了对差异性语义的建模，提高了CLIP的零样本推理能力。

Nov, 2022

HiCLIP: 基于分层感知注意力的对比语言-图像预训练

本文提出了用层级感知的注意力机制改进CLIP模型，以更好的捕捉图像和文本的高层语义，并在视觉识别和与视觉相关的下游任务中获得良好的结果。

Mar, 2023

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

消除CLIP数据的神秘

以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP，在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果，MetaCLIP在零样本ImageNet分类中达到70.8%的准确率，并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。

Sep, 2023

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于CLIP等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

缓解差距：研究提升CLIP中跨模态对齐的方法

通过设计AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了AlignCLIP在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

语义组合提升视觉-语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024