如何更一致地使用逻辑锚定在干净数据上注入后门

ICLRSep, 2021

如何更一致地使用逻辑锚定在干净数据上注入后门

How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data

Zhiyuan Zhang, Lingjuan Lyu, Weiqiang Wang, Lichao Sun, Xu Sun

TL;DR通过研究添加后门攻击所需的 Adversarial Weight Perturbation (AWP)，提出了一种称为 “锚点损失” 的方法，通过固定模型对清洗数据的行为来提高模型的整体和实例间结果的一致性。

Abstract

Since training a large-scale backdoored model from scratch requires a large training dataset, several recent attacks have considered to inject backdoors into a trained clean model without altering model behaviors

backdoors adversarial weight perturbation consistency anchoring loss model behaviors

发现论文，激发创造

标签一致的后门攻击

本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击，通过注入似乎合理但难以分类的输入来使模型依赖于（易于学习的）后门触发器，达到攻击的目的。

Dec, 2019

通过对抗性权重掩码进行单次神经后门消除

本研究提出 Adversarial Weight Masking（AWM）方法解决神经后门威胁，通过对训练数据注入触发数据样本，对敏感权重做 (软) 屏蔽，实验结果表明该方法优于现有技术提升了神经后门清除效果。

Jul, 2022

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021

对抗权重扰动能否注入神经后门？

本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门，揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失，以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动，并表明这些扰动在多项任务中都是有效的。

Aug, 2020

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

指令作为后门：大型语言模型指令调整的后门漏洞

训练指导调谐模型的众包数据集存在安全隐患，攻击者可通过少量恶意指令注入后门来控制模型行为，导致持久性后门并在多个数据集中实现 90％的攻击成功率，同时需要更加强大的防御措施来应对数据污染攻击，并重视指导众包中数据的质量。

May, 2023

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

揭秘后门：使用优化的缩放预测一致性识别后门数据

现代机器学习（ML）系统需要大量的训练数据，但常常需要使用外部数据源。然而，这种做法使它们容易受到后门污染攻击的威胁。本文关注一个相对未被深入研究的挑战：在一个被污染的数据集中自动识别后门数据，且不需要额外的干净数据或手动定义后门检测的阈值。通过基于缩放预测一致性（SPC）技术，使得针对后门数据的识别问题成为一个分层数据分割优化问题，并利用一种新的基于 SPC 的损失函数作为主要优化目标。我们的创新体现在几个关键方面：首先，重新审视了传统的 SPC 方法，揭示了其在解决后门识别问题上的局限性。其次，我们基于双层优化的方法精确地识别后门数据，通过最小化改良版的 SPC 损失函数。最后，我们通过在不同基准数据集上评估各种基本标签污染攻击和更复杂的干净标签攻击，证明了我们的方法的有效性。实验结果显示，我们的方法在识别后门数据点方面常常优于当前基准线的性能，平均 AUROC 提高了约 4%-36%。源代码可在此网址获得：https://example.com

Mar, 2024