对抗攻击下的稳健对比语言 - 图像预训练

Mar, 2023

对抗攻击下的稳健对比语言 - 图像预训练

Robust Contrastive Language-Image Pretraining against Adversarial Attacks

Wenhan Yang, Baharan Mirzasoleiman

TL;DR本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Abstract

contrastive vision-language representation learning has achieved state-of-the-art performance for zero-shot classification, by learning from millions of image-caption pairs crawled from the internet. However, the massive data that powers large →

contrastive vision-language representation adversarial attacks multimodal models fine-tuning clip

发现论文，激发创造

CleanCLIP: 多模态对比学习中缓解数据污染攻击

介绍了一种解决多模态表征学习领域中后门攻击问题的新方法 CleanCLIP，可以帮助模型减弱后门数据带来的错误训练结果。同时，该方法可以通过对单个模态的预训练任务进行微调的方式来提高模型的鲁棒性。

Mar, 2023

安全第一：针对有针对性数据污染和后门攻击的预训练 CLIP

SAFECLIP 通过应用单模态对比学习预训练 CLIP 模型，通过逐渐增加安全子集的大小，有效地防止了有针对性的数据污染和后门攻击，而不损害 CLIP 在各种数据集上的性能。

Oct, 2023

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

使用语言改写改善 CLIP 训练

本文提出了一种名为 LaCLIP 的新方法，通过语言重写增强 CLIP 的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像 - 文本转移性能。

May, 2023

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉 - 语言模型的稳健性，并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。

Nov, 2023

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出 ReCLIP 方法，第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。

Aug, 2023

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022