针对使用预训练深度学习模型的迁移学习的后门攻击
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而,我们揭示了一种新的漏洞:隐私后门攻击,通过该攻击,在微调受后门影响的模型时,训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性,并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题,并呼吁重新评估使用开源预训练模型的安全协议。
Apr, 2024
预训练机器学习模型存在隐私后门的风险,攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型(包括 transformers)构建隐私后门,进而成功重构个体微调样本。此外,我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此,如果模型不受信任,使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说,我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。
Mar, 2024
研究表明深度神经网络中容易发生 backdoor 污染攻击,本文研究发现有一种有趣的特性,就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。
Mar, 2021
本文介绍了一种特定类型的数据投毒攻击,即后门注入攻击,讨论了攻击者注入后门到深度学习模型中的方法,并提出了两种在不削弱受害者模型有效性的情况下,难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估,并证明即使在最弱的攻击者模型下,这种攻击可以在小的注入率(约为 1%)条件下实现高达 90%以上的攻击成功率。
Aug, 2018
基于对对抗性图像分类模式的观察,我们提出一种用于盗取模型的方法,结合时间侧信道和对抗性图像分类,以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构,该方法可在减少查询次数的同时保持高准确率。
Feb, 2024
深度神经网络面临着对抗后门攻击的挑战,虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能,但我们能否自信地声称已经从模型中真正消除了后门威胁?本文重新调查了防御模型(即采用现有后期训练防御策略的防御模型)中的后门特征,并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是,我们发现原始后门在防御模型中仍然存在,而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现,我们通过设计精心的微小扰动,利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外,我们还将后门重激活扩展到黑盒场景,并提出了两种有效的方法:基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习(即 CLIP)任务上的有效性。总之,本研究揭示了现有防御策略中尚未探索的关键漏洞,强调了设计更加稳健和先进的后门防御机制的紧迫性。
May, 2024
本研究通过基于激活的网络修剪设计了一种蒸馏差异化器,以减轻转移学习中的最先进的误分类攻击,采用从不同差异化器的集合结构来提高防御鲁棒性,经综合评估验证,我们的设计表现优于之前的问题防御。
Aug, 2019