机器学习中不依赖特定模型的防御后门攻击方法

Aug, 2019

机器学习中不依赖特定模型的防御后门攻击方法

Model Agnostic Defence against Backdoor Attacks in Machine Learning

Sakshi Udeshi, Shanshan Peng, Gerald Woo, Lionell Loh, Louth Rawshan...

TL;DR该论文提出了一个名为 NEO 的模型无关框架，用于检测和缓解图像分类机器学习模型中的后门攻击，并评估了其在三种被污染的模型中的表现。

Abstract

machine learning (ML) has automated a multitude of our day-to-day decision making domains such as education, employment and driving automation. The continued success of ML largely depends on our ability to trust the model we are using. Recently, a new class of attacks called

machine learning backdoor attacks neo model agnostic framework poisoned models

发现论文，激发创造

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

防范隐蔽后门攻击

本文介绍了一些针对语言处理模型的后门攻击进行的防御策略，并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。

May, 2022

通过激活聚类检测深度神经网络的后门攻击

本文提出了一种新的神经网络后门检测和修复方法，经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信，恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况，是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。

Nov, 2018

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

毒药为疗法：在深度神经网络中检测和中和可变大小的后门攻击

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

视频识别模型的干净标记后门攻击

本文提出了一种新的视频后门攻击方法，使用通用对抗触发器在影响少量训练数据的情况下成功地攻击最新的视频识别模型，并表明这种新方法具有较强的对抗性和鲁棒性，同时能提高图片后门攻击的效果。

Mar, 2020

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020