后门攻击中的光谱签名

NIPSNov, 2018

Spectral Signatures in Backdoor Attacks

Brandon Tran, Jerry Li, Aleksander Madry

TL;DR本文发现所有已知的后门攻击都具有一种称为 “光谱签名” 的新特性，并使用鲁棒性统计工具来检测和清除受污染的样本，以保护深度学习系统免受数据投毒和后门攻击。

Abstract

A recent line of work has uncovered a new form of data poisoning: so-called \emph{backdoor} attacks. These attacks are particularly dangerous because they do not affect a network's behavior on typical, benign data. Rather, the network only deviates from its expected output when trigger

data poisoning backdoor attacks spectral signatures robust statistics ml security

发现论文，激发创造

使用鲁棒统计方法防御后门攻击的 SPECTRE 技术

提出一个使用鲁棒协方差估计来放大数据污染的光谱特征的新型防御算法，从而完全消除后门，即使在先前的方法无法检测到污染样例的情况下，也能提供一个净模型。

Apr, 2021

深度神经网络中难以察觉的后门攻击的逆向工程技术：检测与训练集清理

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

使用数据污染进行深度学习系统的有针对性后门攻击

该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性，特别是通过数据注入的后门攻击，通过注入极少的毒数据，攻击者可以成功实现攻击，进而窃取敏感信息，从而为后续研究防御策略提供了研究价值。

Dec, 2017

源代码神经模型中的后门

本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。

Jun, 2020

WaNet-- 基于不可察觉畸变的后门攻击

本文提出了一种基于扭曲触发器的后门攻击以及一种名为 “噪声模式” 的新型训练模式，旨在使这种攻击机制对机器防御者难以检测，其结果表明，这种后门攻击比先前的方法在人类检测测试中的表现要好得多，并成功地攻击和绕过 MNIST、CIFAR-10、GTSRB 和 CelebA 等标准分类数据集上的最新的防御方法。

Feb, 2021

从统计学角度剖析毒化后门攻击

对于机器学习中的黑门攻击，本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性，回答了一系列基本但以前未被充分探讨的问题，包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型，并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。

Oct, 2023