BadCLIP: 多模态对比学习的双嵌入引导后门攻击

Nov, 2023

BadCLIP: 多模态对比学习的双嵌入引导后门攻击

BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning

Siyuan Liang, Mingli Zhu, Aishan Liu, Baoyuan Wu, Xiaochun Cao...

TL;DR本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击，通过基于贝叶斯规则的双嵌入引导框架，在自然触发模式中实现了视觉触发模式的文本目标语义近似，并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染，证明其对现有的后门防御具有显著优势，引发了对多模态对比学习的潜在威胁的关注，并鼓励开发更加健壮的防御机制。

Abstract

Studying backdoor attacks is valuable for model copyright protection and enhancing defenses. While existing backdoor attacks have successf

backdoor attacks model copyright protection backdoor defenses bayesian rule multimodal contrastive learning

发现论文，激发创造

BDetCLIP：多模态提示对照测试时后门检测

通过对类描述文本和图像之间的余弦相似度分布差异进行对比，我们提出了 BDetCLIP，一种用于检测植入后门样本的创新测试时间后门检测方法，该方法相对于现有的后门检测方法在效果和效率方面都具有优势。

May, 2024

CleanCLIP: 多模态对比学习中缓解数据污染攻击

介绍了一种解决多模态表征学习领域中后门攻击问题的新方法 CleanCLIP，可以帮助模型减弱后门数据带来的错误训练结果。同时，该方法可以通过对单个模态的预训练任务进行微调的方式来提高模型的鲁棒性。

Mar, 2023

BadCLIP：针对 CLIP 的触发器感知提示学习的后门攻击

本研究提出了一种名为 BadCLIP 的方法，针对 CLIP 模型在 prompt 学习阶段注入后门，通过影响图像和文本编码器的方式生成可触发的上下文，实现对图片和文本特征的修改，从而进行高效且具有泛化能力的攻击。实验证实，BadCLIP 在多个数据集上表现出与先进的 prompt 学习方法相近的准确性，攻击成功率在大多数情况下超过 99%；BadCLIP 在未知类别上也具有泛化能力，并在跨数据集和跨领域场景下展现了强大的泛化能力。

Nov, 2023

深度神经网络实际应用中的高效后门攻击

本文提出了一种新的方法应对数据受限的后门攻击，使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为，实验表明该方法可显着提高攻击成功率。

Jun, 2023

有效的后门缓解取决于预训练目标

通过对大规模网络整理的数据进行预训练，我们发现使用简单的预训练目标更有利于有效消除后门攻击，这对于使用强预训练目标与反后门攻击之间权衡的从业者至关重要。

Nov, 2023

对抗后门攻击中对比学习的防御难度

本研究探讨了对比学习与监督学习相比，在基于后门的攻击方面存在的差异，并发现对比后门攻击需要特定的防御方法，强调了未来研究的方向。

Dec, 2023

使用噪声增强对比学习的文本后门防御

该研究提出了基于噪声增强对比学习（NCL）框架，以保护使用不可信数据训练模型的文本后门攻击。实验表明该方法的有效性，比先前的研究表现更好。

Mar, 2023

双密钥多模式背门用于视觉问答

研究表明，多模态网络容易受到后门攻击，提出了一种称为双重密钥多模态后门攻击的新型攻击，通过视觉触发器优化策略，攻击成功率高达 98％，仅污染 1％的训练数据，最终发布了 TrojVQA，一个大型的干净和 Trojan VQA 模型集合，用于研究防御多模态后门攻击。

Dec, 2021

去学习后门威胁：通过本地令牌去学习增强多模态对比学习的后门防御

不同模态对比学习在构建高质量特征方面具有很大的潜力，但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制，即通过构建一小组有毒样本，迅速消除后门威胁。实验结果表明，该方法不仅能保证攻击的成功率最小化，还能保持模型的高准确性。

Mar, 2024

对抗攻击下的稳健对比语言 - 图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023