深度神经网络中反向工程后训练的通用防御机制

Feb, 2024

深度神经网络中反向工程后训练的通用防御机制

Universal Post-Training Reverse-Engineering Defense Against Backdoors in Deep Neural Networks

Xi Li, Hang Wang, David J. Miller, George Kesidis

TL;DR本文介绍了一种新的检测器，利用被保护深度神经网络的内部特征映射来检测和逆向工程后门，并识别其目标类别；该检测器可以在训练结束后操作，对各种内部化机制都具有高效性，且计算开销较低，可实现可扩展性。

Abstract

A variety of defenses have been proposed against backdoors attacks on deep neural network (DNN) classifiers. Universal methods seek to reliably detect and/or mitigate backdoors irrespective of the incorporation m

backdoors attacks deep neural network defenses detection incorporation mechanisms

发现论文，激发创造

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

通过重新激活攻击打破后门防御中的虚假安全感

深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即 CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

May, 2024

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

通过选择性特征重建来抵御普适性攻击

本文提出了一种新的深度神经网络防御机制，该机制通过对 DNN 特征域中最易受到对抗性噪声攻击的预训练的卷积特征进行可训练的特征重建，将这些 DNN 滤波器激活转换成鲁棒性更高的特征，从而有效地保护免受通用扰动的攻击。通过重建至多 6 个 DNN 层中顶部 50% 的易受攻击的激活并保留所有剩余的激活状态，无需其他修改，我们的防御在 ImageNet 上经过一个通用对抗攻击的训练即可对抗其他类型的通用攻击。

Jun, 2019

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

用于二分类和多攻击场景的后训练后门攻击检测

本文提出了一种基于反向工程和期望可转移性统计量的检测框架，旨在解决在无法访问分类器的训练集和其他清洁参考分类器的情况下检测深度神经网络分类器遭受后门攻击的问题，该框架能够在多个数据集上取得非常优异的表现，且适用于具有多个攻击的多类情况。

Jan, 2022

精细修剪：防御深度神经网络背门攻击

本文提出了针对深度神经网络中的后门攻击的有效防御措施，证明了单独使用修剪或微调是不足以防御复杂攻击的，但结合使用微调 - 修剪可以成功削弱或消除后门攻击，仅略微降低网络对于普通 (非触发输入) 的准确率。该研究为深度神经网络中的后门攻击提供了防御措施的第一步。

May, 2018

提升人工智能系统的安全性：一种检测深度神经网络后门的新方法

我们的研究利用先进的张量分解算法（独立向量分析、多集合规范相关分析和并行因子分析）分析训练好的深度神经网络的权重，有效地区分带后门和干净的模型，从而增强网络系统中深度学习和人工智能的安全性。

Mar, 2024

深度神经网络中难以察觉的后门攻击的逆向工程技术：检测与训练集清理

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022