探究自我训练如何容忍数据背门毒化

AAAIJan, 2023

探究自我训练如何容忍数据背门毒化

Towards Understanding How Self-training Tolerates Data Backdoor Poisoning

Soumyadeep Pal, Ren Wang, Yuguang Yao, Sijia Liu

TL;DR通过使用适当的数据增强手段，自主训练能够在缓解后门攻击中扮演重要角色。

Abstract

Recent studies on backdoor attacks in model training have shown that polluting a small portion of training data is sufficient to produce incorrect manipulated predictions on poisoned test-time data while maintain

backdoor attacks model training self-training data augmentations defense

发现论文，激发创造

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

CNN 中通过训练集污染实施后门攻击且不添加标签毒化

该论文研究了针对深度学习系统的后门攻击，提出了一种不使用标签毒化的新型后门攻击方式，并在 MNIST 手写数字识别和交通标志分类任务上得出了实验结果。

Feb, 2019

洁净图像后门攻击

通过未经过修改的标签中的错误标签注入，我们提出了清洁图像后门攻击，揭示了后门仍然可以通过错误标签的一小部分分数进行注入，从而对图像分类模型的公正性和鲁棒性造成严重威胁，需要对外包标注中的错误标签保持警惕。

Mar, 2024

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021

自我监督学习中不可察觉的后门攻击

自我监督学习模型容易受到后门攻击，而现有的有效后门攻击方法常常涉及可察觉的触发机制，如有颜色的补丁，容易被人类检查出来。本文提出了一种对自我监督模型有效而又难以察觉的后门攻击方法，通过优化特定触发机制的设计，使其与自我监督学习中的增广转换有区分度，并对人类视觉难以察觉。在五个数据集和七个自我监督学习算法上的实验证明了我们的攻击方式极其有效且隐秘，并且对现有后门防御具有很强的抵抗力。我们的代码可以在此链接中找到。

May, 2024

如何只利用未标记数据制作后门？

通过对未标记的数据进行自我监督学习（SSL），本研究调查了基于后门攻击的潜在风险，在没有标签信息的情况下，通过聚类和对比度选择两种毒化策略，证明了在许多 SSL 方法中，无标签后门攻击可以有效地超越随机毒化。

Apr, 2024

深度神经网络中难以察觉的后门攻击的逆向工程技术：检测与训练集清理

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

标签污染就是您所需要的

通过 corrupt labels 设计的 label-only backdoor attack 方法 FLIP，在几个数据集和架构上展示了其强大的攻击能力，并且只引起 1.8% 的 clean test 准确度下降。

Oct, 2023