深度学习中的对抗性示例:攻击与防御
本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨,并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。
Nov, 2019
本文介绍了一种基于对深度神经网络输入输出映射的精确理解的算法,用于制造可以轻易被误分类的针对深度神经网络的对抗样本,通过计算不同类型的样本之间的硬度度量对不同的类型的样本抗击抗性进行了评估,并提出了防御针对性攻击的初步方法。
Nov, 2015
医学深度学习系统可以被巧妙地构造对抗性例子攻击破坏,难以在实际临床设置中应用,本文发现医学深度学习模型对于对抗攻击比对自然图像模型更脆弱,但医学对抗攻击可以通过简单的检测器容易检测出来,这些发现可作为更可解释和安全的医学深度学习系统设计的依据。
Jul, 2019
本文研究表明即使在物理世界的情境下,机器学习系统仍然容易受到敌对样本的攻击,并通过将手机摄像头获取的对抗性图像输入 ImageNet Inception 分类器,并测量系统的分类精度来证明了这一点。
Jul, 2016
近年来,深度神经网络模型在各个领域取得了许多进展,但是它们也开始在风险关键任务中使用。模型的误诊可能导致严重事故甚至死亡。这引起了研究人员对这些模型的攻击进行研究,发现了一长串的漏洞,所以每个模型都应该进行防护。对抗性示例攻击是研究人员中广为人知的一种攻击,他们已经开发了一些防御措施来避免这种威胁。然而,这些防御措施与深度神经网络模型一样晦涩难懂,其工作原理仍然未知。因此,通过可视化它们如何改变目标模型的行为对于更精确地理解防御模型的性能修改是有趣的。在这项工作中,选择了一些对抗性示例攻击的防御措施,并以可视化的方式显示了每个防御措施在防御模型中的行为变化。选择了对抗训练、降维和预测相似度作为防御措施,使用了由卷积神经网络层和全连接神经网络层组成的模型。在每个防御方案中,将原始模型的行为与防御模型的行为进行对比,并通过可视化图表来表示目标模型。
Feb, 2024
深度神经网络被广泛用于各种下游任务,尤其是自动驾驶等安全关键场景,但深度网络常常受到对抗样本的威胁。对抗攻击可以分为白盒攻击和黑盒攻击,前者攻击者知道模型的参数和梯度,后者攻击者只能获取模型的输入和输出。攻击者的目的可以分为有目标攻击和非有目标攻击,黑盒设置是我们实践中会遇到的情况。
Aug, 2023