Feb, 2024

通过可视化动态风险评估理解深度学习对抗性示例的防御

TL;DR近年来,深度神经网络模型在各个领域取得了许多进展,但是它们也开始在风险关键任务中使用。模型的误诊可能导致严重事故甚至死亡。这引起了研究人员对这些模型的攻击进行研究,发现了一长串的漏洞,所以每个模型都应该进行防护。对抗性示例攻击是研究人员中广为人知的一种攻击,他们已经开发了一些防御措施来避免这种威胁。然而,这些防御措施与深度神经网络模型一样晦涩难懂,其工作原理仍然未知。因此,通过可视化它们如何改变目标模型的行为对于更精确地理解防御模型的性能修改是有趣的。在这项工作中,选择了一些对抗性示例攻击的防御措施,并以可视化的方式显示了每个防御措施在防御模型中的行为变化。选择了对抗训练、降维和预测相似度作为防御措施,使用了由卷积神经网络层和全连接神经网络层组成的模型。在每个防御方案中,将原始模型的行为与防御模型的行为进行对比,并通过可视化图表来表示目标模型。