少即是多：去除文本区域提高 CLIP 训练效率和鲁棒性

May, 2023

少即是多：去除文本区域提高 CLIP 训练效率和鲁棒性

Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness

Liangliang Cao, Bowen Zhang, Chen Chen, Yinfei Yang, Xianzhi Du...

TL;DR本文介绍两种有效方法来提高 CLIP 模型的效率和鲁棒性：（1）在维持相同优化步数的情况下增加训练数据集，（2）过滤包含图像中文本区域的样本，从而在像 ImageNet 和 CoCo 公共基准测试中显著提高分类和检索精度。过滤掉包含文本区域的图像还可保护模型免受排版攻击。通过构建名为 ImageNet with Adversarial Text Regions（ImageNet-Attr）的新数据集，验证了这一点。我们的基于过滤的 CLIP 模型在 top-1 精度方面表现出 68.78％的性能，胜过以前的所有模型，其精度均低于 50％。

Abstract

The CLIP (Contrastive Language-Image Pre-training) model and its variants are becoming the de facto backbone in many applications. However, training a CLIP model from hundreds of millions of image-text pairs can be prohibitively expensive. Furthermore, the conventional →

clip model image-text pairs visual semantics efficient training typographic attacks

发现论文，激发创造

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

使用语言改写改善 CLIP 训练

本文提出了一种名为 LaCLIP 的新方法，通过语言重写增强 CLIP 的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像 - 文本转移性能。

May, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉 - 语言模型的稳健性，并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。

Nov, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

数字中的魔鬼：走向稳健的多模式数据过滤器

通过分析多模态数据集，我们观察到包含数字等冗余信息对 CLIP 得分的深远影响，因此提出了一种基于文本的过滤方法，实验证明在选择数据的过程中超过原始 CLIP 得分过滤器的性能表现，并提供了改善 CLIP 训练有效性的有价值洞见，包括语言重写技术。

Sep, 2023

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

Alpha-CLIP：聚焦于您想要的地方的 CLIP 模型

Alpha-CLIP 是 CLIP 的一个增强版本，通过辅助的 alpha 通道来建议注意力集中的区域，并基于构建的 RGBA 区域 - 文本对进行微调。Alpha-CLIP 不仅保留了 CLIP 的视觉识别能力，还能精确控制图像内容的强调，具有在各种任务中展现有效性的强大潜力，包括但不限于开放世界识别、多模态大语言模型和条件 2D / 3D 生成。

Dec, 2023

长文本 CLIP: 解锁 CLIP 的长文本能力

通过引入 Long-CLIP 作为 CLIP 的替代方案，本研究提供了一种支持长文本输入的方法，并保持了零样本泛化能力，提高了长标题文本 - 图像检索和传统文本 - 图像检索任务的性能。

Mar, 2024