学习对抗性扰动的理论理解

ICLRFeb, 2024

Theoretical Understanding of Learning from Adversarial Perturbations

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki

TL;DR理论框架揭示了扰动中包含了足够的类别特征以实现泛化，并且学习扰动的决策边界与标准样本的决策边界在大部分区域上相一致。

Abstract

It is not fully understood why adversarial examples can deceive neural networks and transfer between different networks. To elucidate this, several studies have hypothesized that adversarial perturbations, while

adversarial examples neural networks adversarial perturbations generalization learning from perturbations

发现论文，激发创造

解释和利用对抗样本

机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响，该现象不同于过拟合和非线性，但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。

Dec, 2014

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

调查对抗扰动中隐藏的可识别人类特征

研究表明，神经网络在各种机器学习任务中表现出色，但仍然容易受到对抗性扰动的攻击。这篇论文探讨了对抗性攻击中人可识别特征的识别，并揭示了在无目标攻击和有目标攻击中出现的两种不同效应。通过提取像素级注释的特征，论文证明了这些特征能够破坏目标模型，并指出不同攻击算法在多个模型上平均后的扰动具有显著的相似性。该研究为更深入地理解对抗性攻击的机制及神经网络的防御策略提供了洞察。

Sep, 2023

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017

使用共享对抗训练来防御通用扰动

本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题，并在图像分类和语义分割方面展示了结果。

Dec, 2018

从图像和扰动的相互影响理解对抗性样本

通过利用 DNN logits 向量，并基于 Pearson 相关系数（PCC）分析两个独立输入的相互影响，我们提出了一种新的对抗样本分析方法。我们的结果表明，通用扰动包含显著特征，而图像对它们则表现得像噪声。利用代理数据集实现的我们发现的一种新的攻击方法，可以生成面向目标的通用对抗性扰动，其性能与使用原始训练数据的最先进基线相当。

Jul, 2020

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

通用对抗扰动：一次调查

本文研究深度学习中的普适性对抗扰动，探讨相关的数据驱动和数据无关的生成方法及防御技术，并讨论了普适性对抗扰动在各项深度学习任务中的应用。

May, 2020

使用生成模型学习通用对抗扰动

本文介绍了一种生成网络 —— 通用对抗网络，它可以在数据集中添加生成输出并欺骗目标分类器，从而提高通用对抗攻击的效果。

Aug, 2017

特征净化：对抗训练如何实现鲁棒深度学习

本文提出了特征纯化原则，表明在神经网络训练期间，小密集混合物的积累是存在对抗性示例的一个原因，并且对抗性训练的一个目标是通过去除这些混合物来净化神经网络的隐藏权重。

May, 2020