CLIP中的对抗性后门防御
介绍了一种解决多模态表征学习领域中后门攻击问题的新方法CleanCLIP,可以帮助模型减弱后门数据带来的错误训练结果。同时,该方法可以通过对单个模态的预训练任务进行微调的方式来提高模型的鲁棒性。
Mar, 2023
SAFECLIP通过应用单模态对比学习预训练CLIP模型,通过逐渐增加安全子集的大小,有效地防止了有针对性的数据污染和后门攻击,而不损害CLIP在各种数据集上的性能。
Oct, 2023
本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击,通过基于贝叶斯规则的双嵌入引导框架,在自然触发模式中实现了视觉触发模式的文本目标语义近似,并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染,证明其对现有的后门防御具有显著优势,引发了对多模态对比学习的潜在威胁的关注,并鼓励开发更加健壮的防御机制。
Nov, 2023
本研究提出了一种名为BadCLIP的方法,针对CLIP模型在prompt学习阶段注入后门,通过影响图像和文本编码器的方式生成可触发的上下文,实现对图片和文本特征的修改,从而进行高效且具有泛化能力的攻击。实验证实,BadCLIP在多个数据集上表现出与先进的prompt学习方法相近的准确性,攻击成功率在大多数情况下超过99%;BadCLIP在未知类别上也具有泛化能力,并在跨数据集和跨领域场景下展现了强大的泛化能力。
Nov, 2023
不同模态对比学习在构建高质量特征方面具有很大的潜力,但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制,即通过构建一小组有毒样本,迅速消除后门威胁。实验结果表明,该方法不仅能保证攻击的成功率最小化,还能保持模型的高准确性。
Mar, 2024
通过对类描述文本和图像之间的余弦相似度分布差异进行对比,我们提出了BDetCLIP,一种用于检测植入后门样本的创新测试时间后门检测方法,该方法相对于现有的后门检测方法在效果和效率方面都具有优势。
May, 2024
深度神经网络面临着对抗后门攻击的挑战,虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能,但我们能否自信地声称已经从模型中真正消除了后门威胁?本文重新调查了防御模型(即采用现有后期训练防御策略的防御模型)中的后门特征,并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是,我们发现原始后门在防御模型中仍然存在,而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现,我们通过设计精心的微小扰动,利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外,我们还将后门重激活扩展到黑盒场景,并提出了两种有效的方法:基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习(即CLIP)任务上的有效性。总之,本研究揭示了现有防御策略中尚未探索的关键漏洞,强调了设计更加稳健和先进的后门防御机制的紧迫性。
May, 2024
使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性,我们的研究结果表明,攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外,我们基于以上关键观察修改了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是,即使没有访问指令数据集,也可以使用极低的污染率(0.2%)成功毒化多模态指令集,攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。
Jun, 2024
本研究针对多模态对比学习中的后门攻击问题,提出了一种新的细粒度文本对齐清理器(TA-Cleaner),以解决现有CleanCLIP策略在复杂攻击下的防御性能不足。实验结果表明,TA-Cleaner在六种攻击算法下展现了先进的防御效果,显著降低了后门攻击的成功率,具有重要的应用价值。
Sep, 2024
本研究解决了多模态对比学习中后门攻击的安全风险,提出了一种基于机器遗忘的高效防御机制。通过创建小规模的中毒样本并采用新的标记级别部分遗忘训练方案,本文显著提高了模型在面对后门攻击时的防御效率,同时保持了较高的干净准确率。
Sep, 2024