对抗后门攻击中对比学习的防御难度
该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020
本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击,通过基于贝叶斯规则的双嵌入引导框架,在自然触发模式中实现了视觉触发模式的文本目标语义近似,并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染,证明其对现有的后门防御具有显著优势,引发了对多模态对比学习的潜在威胁的关注,并鼓励开发更加健壮的防御机制。
Nov, 2023
不同模态对比学习在构建高质量特征方面具有很大的潜力,但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制,即通过构建一小组有毒样本,迅速消除后门威胁。实验结果表明,该方法不仅能保证攻击的成功率最小化,还能保持模型的高准确性。
Mar, 2024
基于提示的方法在连续学习中为数据隐私问题提供了前沿解决方案,但在面向多个数据提供方且禁止长期存储私人用户数据的情景中,其出色的记忆能力可能成为双刃剑,因为它可能在从私人用户数据中学习时无意识地保留注入的有毒知识。本文针对这一问题,揭示了连续学习面临的一个潜在威胁:后门攻击,该攻击在特定触发器存在时驱动模型追随预设的对抗目标,在处理干净样本时依然表现正常。我们指出了对增量学习者执行后门攻击面临的三个关键挑战,并提出相应的解决方案:(1)可传递性:我们使用一个替代数据集,并操纵提示选择,将后门知识转移到其他数据提供方的数据上;(2)弹性:我们模拟受害者的静态和动态状态,确保后门触发器在强烈的增量学习过程中保持稳健;(3)真实性:我们应用二元交叉熵损失作为反作弊因素,防止后门触发器退化为对抗性噪声。大量的实验验证了我们的连续后门框架,在各种基准数据集和连续学习者上取得了高达 100%的攻击成功率,进一步的消融研究证实了我们贡献的有效性。
Jun, 2024
通过训练两个模型,其中一个不带任何防御机制,另一个结合恶意客户过滤和提前停止以控制攻击成功率,我们提出了防御联邦学习背门攻击的框架 ——“阴影学习”。该框架在理论上受到了证明,并且实验证明了它显著改善了现有的防御措施。
May, 2022
本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击和防御模型的性能,并提出了聚类 - based 的防御策略 CUBE,为未来模型开发提供了基础。
Jun, 2022
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来检测反向门攻击,并开发了一个具有理论保证且实用的检测算法。
Jul, 2023
本文重点研究联邦学习(FL)中后门攻击的防御方法,提出一种新的联邦后门攻击框架,通过直接修改局部模型权重注入后门触发器,并与客户端模型联合优化,从而更加单独和隐蔽地绕过现有防御。实证研究表明最近的三大类联邦后门防御机制存在一些缺陷,我们对此提出了建议。
Jan, 2023
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022