揭秘后门：使用优化的缩放预测一致性识别后门数据

ICLRMar, 2024

揭秘后门：使用优化的缩放预测一致性识别后门数据

Backdoor Secrets Unveiled: Identifying Backdoor Data with Optimized Scaled Prediction Consistency

Soumyadeep Pal, Yuguang Yao, Ren Wang, Bingquan Shen, Sijia Liu

TL;DR现代机器学习（ML）系统需要大量的训练数据，但常常需要使用外部数据源。然而，这种做法使它们容易受到后门污染攻击的威胁。本文关注一个相对未被深入研究的挑战：在一个被污染的数据集中自动识别后门数据，且不需要额外的干净数据或手动定义后门检测的阈值。通过基于缩放预测一致性（SPC）技术，使得针对后门数据的识别问题成为一个分层数据分割优化问题，并利用一种新的基于 SPC 的损失函数作为主要优化目标。我们的创新体现在几个关键方面：首先，重新审视了传统的 SPC 方法，揭示了其在解决后门识别问题上的局限性。其次，我们基于双层优化的方法精确地识别后门数据，通过最小化改良版的 SPC 损失函数。最后，我们通过在不同基准数据集上评估各种基本标签污染攻击和更复杂的干净标签攻击，证明了我们的方法的有效性。实验结果显示，我们的方法在识别后门数据点方面常常优于当前基准线的性能，平均 AUROC 提高了约 4%-36%。源代码可在此网址获得：https://example.com

Abstract

Modern machine learning (ML) systems demand substantial training data, often resorting to external sources. Nevertheless, this practice renders them vulnerable to backdoor poisoning attacks. Prior backdoor defens

machine learning backdoor poisoning attacks data identification scaled prediction consistency backdoor data points

发现论文，激发创造

使用鲁棒统计方法防御后门攻击的 SPECTRE 技术

提出一个使用鲁棒协方差估计来放大数据污染的光谱特征的新型防御算法，从而完全消除后门，即使在先前的方法无法检测到污染样例的情况下，也能提供一个净模型。

Apr, 2021

透过虚假相关性的镜头缓解后门污染攻击

该论文研究了当现代自然语言处理模型使用大量不受信任的数据集进行训练时，如何减少后门毒化攻击，提出了利用防止虚假相关的方法进行防范，在与现有防御方法进行比较时，该方法能够显著减少后门攻击的成功率，并且在插入攻击的情况下，提供了近乎完美的防御。

May, 2023

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

探究自我训练如何容忍数据背门毒化

通过使用适当的数据增强手段，自主训练能够在缓解后门攻击中扮演重要角色。

Jan, 2023

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

IBD-PSC: 基于参数缩放一致性的输入层后门检测

这篇论文提出了一种名为 IBD-PSC 的简单而有效的输入层背门检测方法，通过放大模型参数，利用参数相关的一致性现象来过滤恶意测试图像，并设计了一种自适应方法选择 BN 层进行有效检测，通过基准数据集上的大量实验证实了 IBD-PSC 方法的有效性和效率，以及其对自适应攻击的抵抗性。

May, 2024

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

从统计学角度剖析毒化后门攻击

对于机器学习中的黑门攻击，本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性，回答了一系列基本但以前未被充分探讨的问题，包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型，并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。

Oct, 2023