关于 $l_0$ 有界对抗攻击的对抗训练的泛化性质

Feb, 2024

关于 $l_0$ 有界对抗攻击的对抗训练的泛化性质

Generalization Properties of Adversarial Training for $\ell_0$-Bounded Adversarial Attacks

Payam Delgosha, Hamed Hassani, Ramtin Pedarsani

TL;DR神经网络在输入上的微小扰动会导致错误分类，本文针对截断分类器的 l0 有界对抗攻击进行理论性能分析，证明了一个独立于分布的二分类设置的 l0 有界对抗扰动的新型泛化界限。

Abstract

We have widely observed that neural networks are vulnerable to small additive perturbations to the input causing misclassification. In this paper, we focus on the $\ell_0$-bounded adversarial attacks, and aim to

neural networks adversarial attacks adversarial training classification generalization bound

发现论文，激发创造

关于 l∞扰动下对抗训练估计器的渐近行为

该研究聚焦于通过对抗性训练对抗机器学习和统计模型中的对抗攻击进行防御，通过研究广义线性模型中对抗性训练估计器的渐近行为，揭示其在 $\ell_\infty$- 扰动下的极限分布，在真实参数为 0 时对 0 处有正概率的特性，进一步提出了自适应对抗性训练，该方法能够提升对 $\ell_\infty$- 扰动下的对抗性训练的性能，并进行了数值实验来展示其对稀疏恢复能力的验证和与传统对抗性训练的实际表现的对比。

Jan, 2024

关于对抗训练的泛化性质

本论文研究了一种泛用的对抗训练算法的泛化性能，并考虑了线性回归模型和两层神经网络（使用平方损失）在低维和高维情况下的表现，其中，我们发现数据内插会防止对抗性鲁棒估算器的一致性，因此，我们引入 L1 惩罚，在高维对抗学习中，证明了它可以导致一致的对抗性鲁棒估计。

Aug, 2020

通过数据本地化对稀疏对抗扰动进行认证鲁棒性

通过对局部化数据分布的理解，提出了一种基于几何形态的简单分类器 Box-NN，并在 MNIST 和 Fashion-MNIST 数据集上取得了对于稀疏攻击的认证稳健性方面的最新研究成果。

May, 2024

面向有效训练与评估的鲁棒模型：相对于 $l_0$ 有界对抗扰动

研究了 $l_0$ 范数约束下的稀疏对抗扰动，并提出了一种名为 sparse-PGD 的白盒 PGD 攻击方法来有效高效地生成这种扰动。此外，将 sparse-PGD 与黑盒攻击相结合，全面可靠地评估模型对 $l_0$ 约束下的对抗扰动的鲁棒性，并且 sparse-PGD 的高效性使得我们能够进行对抗性训练以构建对稀疏扰动具有鲁棒性的模型。大量实验证明，我们提出的攻击算法在不同场景下表现出很强的性能。更重要的是，与其他鲁棒模型相比，我们的对抗训练模型展示了对各种稀疏攻击的最新鲁棒性。代码可在此 https URL 找到。

May, 2024

对抗训练线性回归的正则化性质

最新机器学习模型存在脆弱性，而对抗训练是一种有效方法，本研究着重探究线性模型下的脆弱性，并对对抗训练在线性回归和其他正则化方法中的解决方案进行了比较分析。

Oct, 2023

多扰动下的对抗训练和鲁棒性

针对对抗样本的防御，如对抗训练，通常针对单个干扰类型（例如小的 l∞- 噪声），对于其它类型的干扰，这些防御没有保障，甚至会增加模型的脆弱性。我们的目标是了解这种鲁棒性取舍背后的原因，并训练同时对多种扰动类型具有鲁棒性的模型。

Apr, 2019

对抗训练的规范不可知鲁棒性

本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法，证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性，提出可能的解决方案及其局限性。

May, 2019

对抗鲁棒泛化的 Rademacher 复杂度

本文主要研究了机器学习模型的鲁棒性问题，特别是针对 l∞ 攻击所造成的影响，并考察了基于 Rademacher 复杂度的鲁棒泛化问题。研究表明，通过限制权重矩阵的 l1 范数可能是提高在对抗环境下的泛化性能的有效方法。

Oct, 2018

揭示对范数受限对抗样本的对抗训练极限

探索对抗训练的极限，发现了通过结合更大的模型、Swish/SiLU 激活函数和模型权重平均化可以训练出强健模型，同时在 CIFAR-10 和 CIFAR-100 数据集上有了大幅度的提升。

Oct, 2020

快速自适应边界攻击生成最小扭曲的对抗样本

本文提出了一种新的基于 $l_p$-norms 的白盒对抗攻击方法，通过最小化扰动的大小来改变特定输入的类别，这个方法具有几何直观性，是一种性能优越的攻击方法，比专门针对一个 $l_p$-norm 的攻击方法具有更好的鲁棒性，并且可以解决梯度掩盖的问题。

Jul, 2019