通过有原则的对抗训练证明一些分布鲁棒性

ICLROct, 2017

通过有原则的对抗训练证明一些分布鲁棒性

Certifying Some Distributional Robustness with Principled Adversarial Training

Aman Sinha, Hongseok Namkoong, Riccardo Volpi, John Duchi

TL;DR利用分布鲁棒优化的方式解决神经网络在对抗攻击下的鲁棒性问题，通过在 Wasserstein ball 内惩罚扰动数据分布的方式，通过我们提出的训练过程，能够实现对训练数据的最坏情况扰动而获得中等水平的健壮性，同时具有较小的计算和统计成本，并且我们的统计保证使我们能够有效地验证整体损失的健壮性，对于感知扰动，我们的方法与启发式方法相匹配或更好。

Abstract

neural networks are vulnerable to adversarial examples and researchers have proposed many heuristic attack and defense mechanisms. We address this problem through the principled lens of →

neural networks adversarial examples distributionally robust optimization wasserstein ball robustness

发现论文，激发创造

神经网络的 Wasserstein 分布鲁棒性

对于图像识别任务，深度神经网络易受到针对性攻击，本文使用 Wasserstein 分布鲁棒优化技术重新构建问题模型，并提出了新的攻击算法，包括 FGSM 和 PGD，并给出了对分布威胁模型的渐进估计。

Jun, 2023

半无限约束学习的对抗鲁棒性

本文通过半无限优化和非凸对偶理论的研究，证明对抗性训练等价于在扰动分布上的统计问题，并对此进行完整的表征。我们提出一种基于 Langevin Monte Carlo 的混合方法，可以缓解鲁棒性与标准性能之间的平衡问题，并取得了 MNIST 和 CIFAR-10 等领域最先进的结果。

Oct, 2021

全局 - 局部正则化的分布鲁棒性

本文提出一种基于 Wasserstein 的分布鲁棒性优化方法，旨在通过同时应用本地和全局正则化，将原始分布与最具挑战性的分布相结合，提高模型的建模能力，解决深度神经网络在实际应用中对抗性示例和分布偏移等问题。实验结果表明，该方法在半监督学习、领域适应、领域泛化和对抗机器学习等各领域中均明显优于现有的正则化方法。

Mar, 2022

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

关于鲁棒性对抗样本和多项式优化的研究

通过优化多项式优化问题的技术，我们设计了具有计算效率和可证明保证的鲁棒性算法，能够抵御测试时的对抗性干扰，特别地，针对线性分类器和二次多项式阈值函数（PTF）分类器，我们给出了其计算鲁棒性的代价的精确刻画，同时，我们还证明了用环境所提供的函数信息可以在有效时间内帮助生成对抗攻击样本，并证明这些攻击样本在实际数据上是有效的。

Nov, 2019

朝着高准确度的概率鲁棒性认证

通过提出一种新的方法，同时追求高准确性和具有认证的概率鲁棒性，我们的实验显示该方法在多个模型和数据集上的认证率和准确性方面明显优于现有方法。

Sep, 2023

Wasserstein 分布鲁棒优化：机器学习中的理论和应用

此论文介绍了基于 Wasserstein 分布鲁棒优化的数据驱动决策方法，能够解决样本有限、参数不确定的情况下，采用仅仅通过数据学习决策的问题，绕过测试样本不能涵盖所有情况的问题，具有良好的效果且容易计算。此方法对于分类、回归等基本学习任务有很好启示作用。

Aug, 2019

关于强健的过拟合：对抗训练引起的分布问题

该研究论文探讨了对抗训练中的鲁棒性过拟合现象及其与扰动诱导分布的泛化困难性之间的相关性，提供了一个新的上界，其中称为 “局部离散性” 的扰动算子发挥了重要作用。

Nov, 2023

对抗训练和可证明的鲁棒性：两个目标的故事

提出了一个基于对抗训练和可证明的强健性验证相结合的原则性框架，用于训练可证明强健的神经网络，并开发了一个新的梯度下降技术，可以消除随机多梯度中的偏差。通过理论分析该技术的收敛性和与现有技术的实验比较，对 MNIST 和 CIFAR-10 的结果表明，所提出的方法可以始终匹配或优于过去的方法，特别是在 MNIST 的 epsilon = 0.3 时，达到了 6.60％的验证测试错误率，在 CIFAR-10 上达到了 66.57％（epsilon = 8/255）。

Aug, 2020

分布对抗损失

对抗攻击的一个主要挑战是可能的攻击方法的庞大空间，本研究引入了一种称为分布对抗损失的新概念，旨在统一随机平滑和输入离散化两种有效削弱攻击者影响的方法。我们证明我们的概念具有 VC 维度和每个输入关联的允许对抗分布集合的大小方面的泛化保证，并通过实验证实该过程，改进了模型对各种对抗攻击的鲁棒性。

Jun, 2024