使用鲁棒统计方法防御后门攻击的 SPECTRE 技术

Apr, 2021

使用鲁棒统计方法防御后门攻击的 SPECTRE 技术

SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics

Jonathan Hayase, Weihao Kong, Raghav Somani, Sewoong Oh

TL;DR提出一个使用鲁棒协方差估计来放大数据污染的光谱特征的新型防御算法，从而完全消除后门，即使在先前的方法无法检测到污染样例的情况下，也能提供一个净模型。

Abstract

Modern machine learning increasingly requires training on a large collection of data from multiple sources, not all of which can be trusted. A particularly concerning scenario is when a small fraction of poisoned data changes the behavior of the trained model when triggered by an attac

machine learning data poisoning model security spectral signature robust covariance estimation

发现论文，激发创造

后门攻击中的光谱签名

本文发现所有已知的后门攻击都具有一种称为 “光谱签名” 的新特性，并使用鲁棒性统计工具来检测和清除受污染的样本，以保护深度学习系统免受数据投毒和后门攻击。

Nov, 2018

透过虚假相关性的镜头缓解后门污染攻击

该论文研究了当现代自然语言处理模型使用大量不受信任的数据集进行训练时，如何减少后门毒化攻击，提出了利用防止虚假相关的方法进行防范，在与现有防御方法进行比较时，该方法能够显著减少后门攻击的成功率，并且在插入攻击的情况下，提供了近乎完美的防御。

May, 2023

数据毒化攻击的认证防御

对使用用户提供数据训练的机器学习系统进行的数据毒化攻击问题进行了探讨，构建了数据异常移除后采用经验风险最小化的防御方法下的攻击损失上限并给出了攻击方法，检验了在 MNIST-1-7，Dogfish 数据集上其防御能力较强，而在 IMDB 情感数据集上加入 3% 的毒化数据可将测试误差从 12% 提升至 23%。

Jun, 2017

基于梯度训练的数据污染的认证鲁棒性

现代机器学习流程利用大量公开数据，导致无法保证数据质量，使得模型容易遭受中毒和后门攻击。本论文提出了一个框架，首次提供了有关使用潜在操纵数据进行训练的模型行为的可证明保证。该框架通过使用凸松弛来近似计算可能的参数更新集合，限制了任何梯度下降学习算法的所有可达参数集合，并提供模型性能和后门成功率的最坏情况行为的界限。该方法在能源消耗、医学成像和自动驾驶等应用的多个真实世界数据集上进行了演示。

Jun, 2024

基于扩散式图像变体的鲁棒训练对抗数据

隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Oct, 2023

揭秘后门：使用优化的缩放预测一致性识别后门数据

现代机器学习（ML）系统需要大量的训练数据，但常常需要使用外部数据源。然而，这种做法使它们容易受到后门污染攻击的威胁。本文关注一个相对未被深入研究的挑战：在一个被污染的数据集中自动识别后门数据，且不需要额外的干净数据或手动定义后门检测的阈值。通过基于缩放预测一致性（SPC）技术，使得针对后门数据的识别问题成为一个分层数据分割优化问题，并利用一种新的基于 SPC 的损失函数作为主要优化目标。我们的创新体现在几个关键方面：首先，重新审视了传统的 SPC 方法，揭示了其在解决后门识别问题上的局限性。其次，我们基于双层优化的方法精确地识别后门数据，通过最小化改良版的 SPC 损失函数。最后，我们通过在不同基准数据集上评估各种基本标签污染攻击和更复杂的干净标签攻击，证明了我们的方法的有效性。实验结果显示，我们的方法在识别后门数据点方面常常优于当前基准线的性能，平均 AUROC 提高了约 4%-36%。源代码可在此网址获得：https://example.com

Mar, 2024

毒药为疗法：在深度神经网络中检测和中和可变大小的后门攻击

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

深度神经网络中难以察觉的后门攻击的逆向工程技术：检测与训练集清理

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

更强的数据投毒攻击突破数据清洗防御

本文研究机器学习模型在训练时通过数据毒化攻击注入恶意数据点的危害以及数据清洗防御措施的不足。通过协调毒化点放置位置和基于约束条件设计攻击的方式，开发三种不同方法规避现有的数据清洗防御措施。这些攻击方法均基于耗时的二级规划问题，并通过影响函数，极小 - 极大假说和 Karush-Kuhn-Tucker（KKT）条件来实现。我们的实验结果表明需要开发更稳健的数据清洗防御措施以应对数据毒化攻击的威胁。

Nov, 2018

Spy-Watermark：强韧隐形数字水印用于后门攻击

提出了一种名为 Spy-Watermark 的新型后门攻击方法，其中引入了一种可学习的图像潜在空间中嵌入的水印作为触发器，通过多个防崩溃操作进一步增强触发器对数据损坏的韧性，从而在面对数据崩溃和后门防御时仍然有效。在 CIFAR10、GTSRB 和 ImageNet 数据集上进行了大量实验，展示了 Spy-Watermark 在鲁棒性和隐秘性方面超过了十种最先进方法。

Jan, 2024