本文提出一种方法,在深度神经网络中增加一个小的 “检测器” 子网络,用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务,并证明其能够有效检测和对抗敌对扰动攻击。
Feb, 2017
该论文提出了一种新的检测对抗样本的方法,通过训练一个使用原始数据和显著性数据的二元分类器。该方法在检测对抗扰动方面表现良好。他们定量评估了检测器的泛化性能,表明在具有强对手的训练下,检测器在弱对手方面表现良好。
Mar, 2018
该文章提出了一种直接部署到标准深度神经网络模型中的简单方法,通过引入两个经典图像处理技术,标量量化和平滑空间滤波,将图像中的扰动降低到最小,使用图像熵作为度量标准,可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本,最终的实验结果表明,该检测方法可以取得 96.39%的高整体 F1 评分。
May, 2017
本文研究表明即使在物理世界的情境下,机器学习系统仍然容易受到敌对样本的攻击,并通过将手机摄像头获取的对抗性图像输入 ImageNet Inception 分类器,并测量系统的分类精度来证明了这一点。
Jul, 2016
通过对高维度输入数据的实践系统进行观察,我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性,以及随机扰动的鲁棒性同时易受影响的基本特性,证实了这一现象。然而,令人惊讶的是,即使对于分类器决策边界与训练和测试数据之间只有很小的边距,也很难通过随机取样的扰动来检测到对抗性示例,因此需要更严格的对抗性训练。
Sep, 2023
该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系,从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。
Jan, 2019
本文研究如何检测机器学习中的对抗性样本,提出使用统计检验和模型增强的方法来识别对抗性样本,并参照多个数据集和对抗样本制作方法进行实验,结果表明统计学特性对于检测对抗性样本至关重要。
本研究提出了一种基于视觉显著性的方法,用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策,并在相对减少清理后图像的损失的同时,通过评估各种指标的准确性来证明它的有效性。
Mar, 2020
这篇论文探讨了深度学习在图像分类中的安全问题,介绍了针对对抗攻击和对抗防御的新分类方法,提供了研究者需要考虑的相关指导,并讨论了未来研究的方向。
Sep, 2020
通过在预先训练好的外部模型上找到敌对样本,我们将有害的攻击过程转化为有用的防御机制,并且我们的防御方法比先前的方法更为强大和经济。
Nov, 2019