防御蒸馏的扩展

本文提出了一种结合了防御蒸馏机制和去噪自动编码器（DAE）的新方法，旨在通过识别和重构有毒的对抗性输入来降低蒸馏模型对毒性攻击的敏感性从而防御深度神经网络 (DNNs) 的对抗性攻击。实验结果表明，该方法成功地识别和重构了有毒的输入，同时也增强了 DNN 的韧性，为各种数据暴露风险问题所困扰的应用提供了强大和稳健的防御机制。

Mar, 2023

对抗鲁棒蒸馏

本文研究知识蒸馏过程中，如何将教师神经网络的鲁棒性传递给学生神经网络，并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明，采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络，并在标准鲁棒性基准测试中超越了当前最先进的方法。

May, 2019

DiffDefense: 通过扩散模型抵御对抗性攻击

这篇论文提出了一种新的重建方法，利用扩散模型来保护机器学习分类器免受对抗攻击，而无需对分类器本身进行任何修改。

Sep, 2023

可证明的最小扭曲对抗样本

利用形式验证技术构建对抗样本，证明这些样本是最小扭曲的，从而增加了对抗性训练的鲁棒性。

Sep, 2017

对抗稀疏教师：利用对抗样本防御基于蒸馏的模型窃取攻击

通过在训练数据中结合稀疏输出与对抗样本，以增强教师模型对学生模型的防御，我们的研究引入了一种保护其输出的教师模型的方法，从而减少了对整体性能的影响。

Mar, 2024