构建针对后门攻击和对抗性攻击的统一鲁棒性

May, 2024

构建针对后门攻击和对抗性攻击的统一鲁棒性

Towards Unified Robustness Against Both Backdoor and Adversarial Attacks

Zhenxing Niu, Yuyao Sun, Qiguang Miao, Rong Jin, Gang Hua

TL;DR提出一种新的逐步统一防御（PUD）算法，用于同时防御后门攻击和对抗性攻击，通过模型净化逐步擦除后门和增强模型的对抗鲁棒性。该算法能有效识别受污染的图片，优于最先进的后门防御和对抗性防御方法。

Abstract

deep neural networks (DNNs) are known to be vulnerable to both backdoor and adversarial attacks. In the literature, these two types of attacks are commonly treated as distinct robustness problems and solved separ

deep neural networks backdoor attacks adversarial attacks progressive unified defense model purification

发现论文，激发创造

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022

RAB: 防篡改攻击的可证明鲁棒性

本研究提出了通过随机平滑技术来确保深度神经网络对于各种威胁模型的健壮性，同时证明了所提出的健壮性训练过程的健壮性边界，并在 MNIST、CIFAR-10 和 ImageNette 数据集上进行了可靠性评估，该研究成果有助于更强大的机器学习模型的开发。

Mar, 2020

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

无敌傍门防御

我们提出了一个有效的防御框架，该框架在数据预处理过程中注入非对抗性后门，以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中，我们的方法实现了业界领先的防御效果，在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力，我们呼吁更多关注如何利用后门进行后门防御。

Jul, 2023

注入主动防御后门以减轻后门攻击

这篇论文提出了一种名为 PDB（Proactive Defensive Backdoor）的新颖防御方法，通过在训练过程中主动注入防御型后门，有效地抑制恶意后门，保持对攻击者的秘密，并在原始任务上确保模型的实用性。实验结果表明，我们的方法在各种数据集和模型上实现了最先进的防御性能。

May, 2024

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

针对 NLP 模型后门攻击的鲁棒性感知扰动防御 (RAP)

本文提出了一种基于鲁棒性感知扰动的在线防御机制，可以有效对抗自然语言处理模型的后门攻击，并在情感分析和毒性检测任务中取得更好的防御效果和更低的计算成本。

Oct, 2021

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

标签一致的后门攻击

本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击，通过注入似乎合理但难以分类的输入来使模型依赖于（易于学习的）后门触发器，达到攻击的目的。

Dec, 2019