GrowCLIP: 面向大规模对比式语言图像预训练的数据感知自动模型扩展

ICCVAug, 2023

GrowCLIP: 面向大规模对比式语言图像预训练的数据感知自动模型扩展

GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training

Xinchi Deng, Han Shi, Runhui Huang, Changlin Li, Hang Xu...

TL;DR通过提出 GrowCLIP，一种基于数据驱动的自动模型增长算法，用于连续图像 - 文本对作为输入的对比性语言 - 图像预训练，本文研究了交叉语义先训练、仍在不断增长的数据、共享编码器、不同维度的增长效果，并使用带动量的参数继承来解决局部最小值问题。在 9 个下游任务的零样本图像分类中，相比现有方法，GrowCLIP 的平均准确率提高了 2.3%；至于零样本图像检索，在 Flickr30K 数据集上，GrowCLIP 的 top-1 图像到文本召回率提高了 1.2%。

Abstract

cross-modal pre-training has shown impressive performance on a wide range of downstream tasks, benefiting from massive image-text pairs collected from the Internet. In practice, online data are growing constantly, highlighting the importance of the ability of pre-trained model to learn

cross-modal pre-training model growing algorithm continuous image-text pairs shared encoder parameter inheriting with momentum

发现论文，激发创造

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

EfficientCLIP: 基于集成自信学习和语言模型的高效跨模态预训练

本文提出了 EfficientCLIP 方法，通过集成自信度学习来获取数据噪声较少的子集，并利用额外的丰富的非配对单模态文本数据来增强文本分支的泛化能力，从而实现了仅使用 CLIP 和 WenLan 的 1/10 培训资源就能达到中文跨模态检索任务的最优表现，并对文本检索和文本分类等单模态任务表现出良好的泛化能力。

Sep, 2021

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

消除 CLIP 数据的神秘

以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP，在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果，MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率，并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。

Sep, 2023

长文本 CLIP: 解锁 CLIP 的长文本能力

通过引入 Long-CLIP 作为 CLIP 的替代方案，本研究提供了一种支持长文本输入的方法，并保持了零样本泛化能力，提高了长标题文本 - 图像检索和传统文本 - 图像检索任务的性能。

Mar, 2024

CLIP 模型是高效的继续学习器

本文发现，CLIP（Contrastive Language-Image Pretraining）模型在冻结状态下，在不进行任何微调（零次评估）的情况下提供惊人的持续学习表现。作者在多种设置（包括类增量、域增量和任务不可知的增量学习）和五个流行基准测试集上评估了 CLIP 模型，证明了其在大多数设置中优于现有模型；同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。

Oct, 2022

使用语言改写改善 CLIP 训练

本文提出了一种名为 LaCLIP 的新方法，通过语言重写增强 CLIP 的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像 - 文本转移性能。

May, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力，并提出了 CLL-CLIP 模型，其通过仅训练标记嵌入来改善内存稳定性，并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系，实验证明该方法在多语言图像 - 文本检索性能上具有有效性。

Jan, 2024