对比学习的中毒和后门攻击
SAFECLIP 通过应用单模态对比学习预训练 CLIP 模型,通过逐渐增加安全子集的大小,有效地防止了有针对性的数据污染和后门攻击,而不损害 CLIP 在各种数据集上的性能。
Oct, 2023
介绍了一种解决多模态表征学习领域中后门攻击问题的新方法 CleanCLIP,可以帮助模型减弱后门数据带来的错误训练结果。同时,该方法可以通过对单个模态的预训练任务进行微调的方式来提高模型的鲁棒性。
Mar, 2023
我们通过对训练数据进行污染来研究背景图像描述模型的后门攻击,采用面向对象的方法设计毒物以修改像素值,并证明了图像描述模型对后门攻击的弱点,希望能在图像描述领域引起对抗后门攻击的意识。
Jan, 2024
本文提出了一种新的方法应对数据受限的后门攻击,使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为,实验表明该方法可显着提高攻击成功率。
Jun, 2023
本文研究了深度图像分类模型中毒的问题,提出了两种防御方案进行后处理,利用少量的受信任的图像标签对修复模型,防御效果优于现有的方案,并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。
May, 2023
训练大规模数据集很昂贵,因此一种模型仅训练一次并多次使用。我们展示了一种更高效的通用数据中毒攻击方法,通过少量的中毒样本,可以控制从任意源类到任意目标类的误分类。我们的触发器利用了一种称为跨类中毒可转移性的现象,从而使模型对其他类别的触发器更易受攻击。我们通过仅中毒训练数据集的 0.15%来控制高达 6,000 个类的模型的有效性和鲁棒性。
Nov, 2023
通过 corrupt labels 设计的 label-only backdoor attack 方法 FLIP,在几个数据集和架构上展示了其强大的攻击能力,并且只引起 1.8% 的 clean test 准确度下降。
Oct, 2023
本文提出了 RoCLIP 方法,通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联,从而实现对 CLIP 多模态模型的强化预训练和微调,有效降低目标数据污染和后门攻击的成功率,并提高模型性能。
Mar, 2023