Mar, 2023

基于降噪自编码器的防御蒸馏作为对抗鲁棒性算法

TL;DR本文提出了一种结合了防御蒸馏机制和去噪自动编码器(DAE)的新方法,旨在通过识别和重构有毒的对抗性输入来降低蒸馏模型对毒性攻击的敏感性从而防御深度神经网络 (DNNs) 的对抗性攻击。实验结果表明,该方法成功地识别和重构了有毒的输入,同时也增强了 DNN 的韧性,为各种数据暴露风险问题所困扰的应用提供了强大和稳健的防御机制。