去偏见化后门攻击：利用后门攻击消除数据偏见

Feb, 2022

去偏见化后门攻击：利用后门攻击消除数据偏见

Debiasing Backdoor Attack: A Benign Application of Backdoor Attack in Eliminating Data Bias

Shangxi Wu, Qiuyang He, Yi Zhang, Jitao Sang

TL;DR本文研究了一种新的 AI 安全风险 —— 后门攻击，并提出 Debiasing Backdoor Attack (DBA) 来解决数据去偏差问题，该方法在去偏差任务中取得了最先进的结果，适用范围比欠采样更广。

Abstract

backdoor attack is a new ai security risk that has emerged in recent years. Drawing on the previous research of adversarial attack, we argue that the →

backdoor attack ai security model learning clean accuracy drop debiasing backdoor attack

发现论文，激发创造

借助背门攻击的人工偏见来减轻模型偏见

本研究提出一种基于知识蒸馏技术的后门去偏差框架，通过反向人工偏差构建，有效降低了原始数据的模型偏差并最小化了后门攻击的安全风险。该框架在图像和结构化数据集上得到了验证，具有良好的效果。

Mar, 2023

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022

BaDExpert：提取后门功能以准确检测后门输入

我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法，用于对抗恶意背后进攻，该方法通过一种新颖的反向工程方法，可以直接从给定的感染模型中提取出背后功能，并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证，有效地减轻了 16 种最先进的背后进攻。

Aug, 2023

从统计学角度剖析毒化后门攻击

对于机器学习中的黑门攻击，本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性，回答了一系列基本但以前未被充分探讨的问题，包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型，并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。

Oct, 2023

后门学习：一项调查

该研究对针对深度神经网络的后门攻击进行了全面的调查，总结和分类现有的后门攻击和防御方法，并提供了分析基于攻击方法的中毒后门攻击的统一框架，并分析了后门攻击与相关领域（如敌对攻击和数据污染）的关系，同时总结了广泛采用的基准数据集。

Jul, 2020

注入主动防御后门以减轻后门攻击

这篇论文提出了一种名为 PDB（Proactive Defensive Backdoor）的新颖防御方法，通过在训练过程中主动注入防御型后门，有效地抑制恶意后门，保持对攻击者的秘密，并在原始任务上确保模型的实用性。实验结果表明，我们的方法在各种数据集和模型上实现了最先进的防御性能。

May, 2024

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019