防御蒸馏不具备对抗性示例的稳健性

本文研究知识蒸馏过程中，如何将教师神经网络的鲁棒性传递给学生神经网络，并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明，采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络，并在标准鲁棒性基准测试中超越了当前最先进的方法。

May, 2019

评估对抗稳健性：FGSM、Carlini-Wagner 攻击的比较及蒸馏在防御机制中的作用

这篇学术论文深入探讨了针对图像分类任务中使用的深度神经网络（DNN）的对抗性攻击，并调查了旨在增强机器学习模型鲁棒性的防御机制。研究聚焦于理解两种主要攻击方法的影响：快速梯度符号法（FGSM）和 Carlini-Wagner（CW）方法。该文献提出防御蒸馏作为一种抵御 FGSM 和 CW 攻击的防御机制，并使用 CIFAR-10 数据集对其进行评估。虽然该提出的防御技术在抵御 FGSM 等攻击方面表现出有效性，但依然易受到更复杂的技术，如 CW 攻击的影响。通过严格的实验和分析，该研究为对 DNNs 的对抗性攻击的动态以及防御策略的有效性提供了深入见解。

Apr, 2024

基于降噪自编码器的防御蒸馏作为对抗鲁棒性算法

本文提出了一种结合了防御蒸馏机制和去噪自动编码器（DAE）的新方法，旨在通过识别和重构有毒的对抗性输入来降低蒸馏模型对毒性攻击的敏感性从而防御深度神经网络 (DNNs) 的对抗性攻击。实验结果表明，该方法成功地识别和重构了有毒的输入，同时也增强了 DNN 的韧性，为各种数据暴露风险问题所困扰的应用提供了强大和稳健的防御机制。

Mar, 2023

MagNet 和 "高效抵御对抗攻击" 对抗对抗性样本的鲁棒性不足

研究发现 MagNet 模型和高效防御模型并不能完全对抗有轻微失真的对抗样本攻击。

Nov, 2017

利用异构教师提取对抗鲁棒性

通过使用异构教师，我们以 DARHT 的方式开发了一种对抗攻击的防御框架，可以通过蒸馏具有低对抗性示例转移能力的异构教师来实现对抗鲁棒性，在白盒和黑盒方案下，DARHT 在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 数据集上与竞争的对抗训练和蒸馏方法相比，实现了最先进的清洁和鲁棒性准确性。通过对异构教师集进行比较，我们发现利用具有低对抗性示例转移能力的教师可以提高学生模型的鲁棒性。

Feb, 2024