机器学习中不依赖特定模型的防御后门攻击方法
本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁,尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击,我们成功地将后门嵌入目标模型,这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验,表明这种方法在数字和现实世界的应用都非常有效,并且对潜在防御手段具有抵御力。
Nov, 2022
本文提出了一种新的神经网络后门检测和修复方法,经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信,恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况,是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。
Nov, 2018
该论文提出一种基于黑盒模型的反向工程优化算法,用于检测深度神经网络中嵌入的恶意后门攻击,并通过检测结果进行有效的可靠预测,实验表明其可以有效地应对多种后门攻击。
Mar, 2021
该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
Jun, 2020
提出了一种有效的对抗性样本(backdoor)防御方法,它由多个子模块组成,能够在检测到 backdoor 的同时进行筛选清洗,并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。
Nov, 2019
本文提出了一种新的视频后门攻击方法,使用通用对抗触发器在影响少量训练数据的情况下成功地攻击最新的视频识别模型,并表明这种新方法具有较强的对抗性和鲁棒性,同时能提高图片后门攻击的效果。
Mar, 2020