调查对抗扰动中隐藏的可识别人类特征

Sep, 2023

调查对抗扰动中隐藏的可识别人类特征

Investigating Human-Identifiable Features Hidden in Adversarial Perturbations

Dennis Y. Menn, Tzu-hsun Feng, Sriram Vishwanath, Hung-yi Lee

TL;DR研究表明，神经网络在各种机器学习任务中表现出色，但仍然容易受到对抗性扰动的攻击。这篇论文探讨了对抗性攻击中人可识别特征的识别，并揭示了在无目标攻击和有目标攻击中出现的两种不同效应。通过提取像素级注释的特征，论文证明了这些特征能够破坏目标模型，并指出不同攻击算法在多个模型上平均后的扰动具有显著的相似性。该研究为更深入地理解对抗性攻击的机制及神经网络的防御策略提供了洞察。

Abstract

neural networks perform exceedingly well across various machine learning tasks but are not immune to adversarial perturbations. This vulnerability has implications for real-world applications. While much research

neural networks adversarial perturbations attack algorithms human-identifiable features resilient defense strategies

发现论文，激发创造

调查和揭示卷积神经网络对对抗扰动的特征级漏洞

通过对深度学习模型的不同层进行敌对性扰动攻击验证，研究表明浅层的通道组合对模型的干扰较大，在不同攻击类型中具有共享的易受攻击通道组合，而不同攻击对隐藏表示的影响存在差异且与卷积核大小呈正相关，以此为基础为未来应用开发高效的应对性防御机制奠定技术基础。

May, 2024

对抗性对齐：打破攻击强度和其对人类感知的相关性之间的权衡

通过研究和比较多种神经网络，本文发现随着图片识别准确度的提高，对抗性攻击虽然越来越容易使模型改变分类决策，但同时攻击的特征也越来越远离与人类视觉识别相关的特征，即使人工以同样方式造成的影响。而通过神经协调器网络的训练，可以使神经网络更加接近人类视觉识别应有模式，从而提高对抗性攻击下的鲁棒性。

Jun, 2023

人脸识别领域中卷积神经网络的对抗性攻击

本文以 Fast Gradient Sign Method 为基础，对面部图像数据集进行扰动，测试不同黑盒攻击算法的鲁棒性，并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明，所有像素攻击方法能使分类器置信度平均下降至 84％，且 81.6％的误分类率，但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。

Jan, 2020

学习对抗性扰动的理论理解

理论框架揭示了扰动中包含了足够的类别特征以实现泛化，并且学习扰动的决策边界与标准样本的决策边界在大部分区域上相一致。

Feb, 2024

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

通用对抗扰动：一次调查

本文研究深度学习中的普适性对抗扰动，探讨相关的数据驱动和数据无关的生成方法及防御技术，并讨论了普适性对抗扰动在各项深度学习任务中的应用。

May, 2020

基于感知度量的任务通用性对抗攻击

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。