BadCM:针对跨模态学习的隐形后门攻击
研究表明,多模态网络容易受到后门攻击,提出了一种称为双重密钥多模态后门攻击的新型攻击,通过视觉触发器优化策略,攻击成功率高达98%,仅污染1%的训练数据,最终发布了TrojVQA,一个大型的干净和Trojan VQA模型集合,用于研究防御多模态后门攻击。
Dec, 2021
本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了BadT2I攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程中攻击效果仍能保持。
May, 2023
在这篇论文中,我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同,我们的组合后门攻击(CBA)将多个触发关键词分散在不同的提示组件中,这使得攻击更加隐蔽。我们的实验证明CBA在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。
Oct, 2023
本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击,通过基于贝叶斯规则的双嵌入引导框架,在自然触发模式中实现了视觉触发模式的文本目标语义近似,并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染,证明其对现有的后门防御具有显著优势,引发了对多模态对比学习的潜在威胁的关注,并鼓励开发更加健壮的防御机制。
Nov, 2023
我们建立了一个名为BackdoorBench的综合基准,提供实时攻击和防御算法的集成实现,并通过全面的评估和多个分析工具对其进行深入分析,旨在为后门学习领域的研究提供一个牢固的基础。
Jan, 2024
不同模态对比学习在构建高质量特征方面具有很大的潜力,但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制,即通过构建一小组有毒样本,迅速消除后门威胁。实验结果表明,该方法不仅能保证攻击的成功率最小化,还能保持模型的高准确性。
Mar, 2024
将新的模态集成到大型语言模型(LLMs)中,如视觉-语言模型(VLMs),在绕过现有的安全训练技术(如SFT和RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在VLMs中进行文本反学习显著减少攻击成功率(ASR)至少低于8%,甚至在某些情况下低至近2%,同时保留实用性。
May, 2024
使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性,我们的研究结果表明,攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外,我们基于以上关键观察修改了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是,即使没有访问指令数据集,也可以使用极低的污染率(0.2%)成功毒化多模态指令集,攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。
Jun, 2024
本研究解决了多模态模型在攻击中表现不足的问题,提出了创新的CrossFire方法,通过将攻击者选择的目标输入转化为原始图像或音频文件的匹配格式,并将攻击形式化为优化问题,以最小化嵌入之间的角度偏差。实验结果显示,CrossFire显著优于现有攻击方法,能够有效操控下游任务,同时当前的防御策略无法有效抵御CrossFire。
Sep, 2024
本研究解决了多模态对比学习中后门攻击的安全风险,提出了一种基于机器遗忘的高效防御机制。通过创建小规模的中毒样本并采用新的标记级别部分遗忘训练方案,本文显著提高了模型在面对后门攻击时的防御效率,同时保持了较高的干净准确率。
Sep, 2024