借助背门攻击的人工偏见来减轻模型偏见

Mar, 2023

借助背门攻击的人工偏见来减轻模型偏见

Backdoor for Debias: Mitigating Model Bias with Backdoor Attack-based Artificial Bias

Shangxi Wu, Qiuyang He, Fangzhao Wu, Jitao Sang, Yaowei Wang...

TL;DR本研究提出一种基于知识蒸馏技术的后门去偏差框架，通过反向人工偏差构建，有效降低了原始数据的模型偏差并最小化了后门攻击的安全风险。该框架在图像和结构化数据集上得到了验证，具有良好的效果。

Abstract

With the swift advancement of deep learning, state-of-the-art algorithms have been utilized in various social situations. Nonetheless, some algorithms have been discovered to exhibit biases and provide unequal results. The current →

deep learning algorithm bias backdoor attack debiasing knowledge distillation

发现论文，激发创造

去偏见化后门攻击：利用后门攻击消除数据偏见

本文研究了一种新的 AI 安全风险 —— 后门攻击，并提出 Debiasing Backdoor Attack (DBA) 来解决数据去偏差问题，该方法在去偏差任务中取得了最先进的结果，适用范围比欠采样更广。

Feb, 2022

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

在能力受限情况下发起强大的后门攻击

本研究探讨了在能力限制内实施黑盒后门攻击的可能性，通过设计后门触发器，攻击者可以在没有参与训练过程或了解目标模型结构的情况下作为图像注释者或供应商从事此类攻击。实验结果表明，我们的方法在黑盒场景中实现了高攻击成功率，并逃过了最先进的后门防御。

Apr, 2023

后门学习：一项调查

该研究对针对深度神经网络的后门攻击进行了全面的调查，总结和分类现有的后门攻击和防御方法，并提供了分析基于攻击方法的中毒后门攻击的统一框架，并分析了后门攻击与相关领域（如敌对攻击和数据污染）的关系，同时总结了广泛采用的基准数据集。

Jul, 2020

标签一致的后门攻击

本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击，通过注入似乎合理但难以分类的输入来使模型依赖于（易于学习的）后门触发器，达到攻击的目的。

Dec, 2019

源代码神经模型中的后门

本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。

Jun, 2020

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019