EfficientCLIP: 基于集成自信学习和语言模型的高效跨模态预训练

Sep, 2021

EfficientCLIP: 基于集成自信学习和语言模型的高效跨模态预训练

EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling

Jue Wang, Haofan Wang, Jincan Deng, Weijia Wu, Debing Zhang

TL;DR本文提出了 EfficientCLIP 方法，通过集成自信度学习来获取数据噪声较少的子集，并利用额外的丰富的非配对单模态文本数据来增强文本分支的泛化能力，从而实现了仅使用 CLIP 和 WenLan 的 1/10 培训资源就能达到中文跨模态检索任务的最优表现，并对文本检索和文本分类等单模态任务表现出良好的泛化能力。

Abstract

While large scale pre-training has achieved great achievements in bridging the gap between vision and language, it still faces several challenges. First, the cost for pre-training is expensive. Second, there is n

pre-training data noise single-modal data efficientclip generalization

发现论文，激发创造

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

SoftCLIP: 更柔和的跨模态对齐增强了 CLIP

本篇论文提出了一种新的方法 SoftCLIP，它通过引入软化的目标来实现交叉模态对齐，并利用模内的自相似性指导实现许多对许多的关系，从而解决了高质量图像 - 文本配对数据的获取问题，成果表现良好。

Mar, 2023

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

GrowCLIP: 面向大规模对比式语言图像预训练的数据感知自动模型扩展

通过提出 GrowCLIP，一种基于数据驱动的自动模型增长算法，用于连续图像 - 文本对作为输入的对比性语言 - 图像预训练，本文研究了交叉语义先训练、仍在不断增长的数据、共享编码器、不同维度的增长效果，并使用带动量的参数继承来解决局部最小值问题。在 9 个下游任务的零样本图像分类中，相比现有方法，GrowCLIP 的平均准确率提高了 2.3%；至于零样本图像检索，在 Flickr30K 数据集上，GrowCLIP 的 top-1 图像到文本召回率提高了 1.2%。

Aug, 2023

跨模态检索遇见推理：通过跨模态检索提升零样本分类

通过跨模态引导和模态置信度集成，X-MoRe 方法利用 CLIP 的跨模态表示能力，从外部图文对数据集中检索相关的文本信息，并通过赋予可靠性更高的模态对最终预测产生贡献，从而在多样化的任务中展示了稳健的性能，充分发挥了 CLIP 的零样本分类能力。

Aug, 2023

中文 CLIP：中文对比视觉 - 语言预训练

该研究使用中文数据构建巨大的图像文本配对数据集，并使用其预训练中文 CLIP 模型，该模型能够在零 - shot 学习和微调设置下，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平，并能够在 ELEVATER 基准测试中实现竞争性能。

Nov, 2022

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024