可学习的边界引导对抗训练

ICCVNov, 2020

Learnable Boundary Guided Adversarial Training

Jiequan Cui, Shu Liu, Liwei Wang, Jiaya Jia

TL;DR本研究通过引入已训练的干净模型的分类边界来指导对抗训练，约束对抗性模型的 logits 与自然数据下的干净模型的 logits 相似，从而提高了模型的鲁棒性和自然数据的准确性。实验证明，该方法在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上具有新的最先进的鲁棒性，无需额外的真实或合成数据。

Abstract

Previous adversarial training raises model robustness under the compromise of accuracy on natural data. In this paper, we reduce natural accuracy degradation. We use the model logits from one clean model to guide

adversarial training model robustness natural accuracy degradation clean model logits classifier boundary

发现论文，激发创造

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023

双边对抗训练：快速训练更健壮的模型以抵御对抗性攻击

本文提出了一种 Bilateral Adversarial Training 方法，使用一步定向攻击生成对抗样本来训练一个抗攻击性更强的神经网络，实验结果表明该方法对于对抗性攻击的鲁棒性有显著提升。

Nov, 2018

生成更不确定的对抗样本提高鲁棒泛化能力

最近的研究表明，深度神经网络对于对抗样本存在漏洞。已经提出了许多防御方法以提高模型的鲁棒性，其中对抗训练最为成功。本文重新审视了鲁棒过拟合现象。我们认为，对抗训练过程中产生的自信模型可能是潜在的原因，通过实证观察支持，具有更好鲁棒泛化能力的模型对于对抗样本的预测标签往往具有更均匀的分布。基于对抗确立的定义，我们在对抗训练框架中引入了一个额外的梯度步骤，以寻找能够生成置信度较低的对抗扰动输入的模型，进一步提高鲁棒泛化。我们的方法具有普适性，可以轻松与其他对抗训练方法的变体结合。在图像基准实验上进行的大量实验证明了我们的方法有效地减轻了鲁棒过拟合，并能够产生鲁棒性持续提升的模型。

Oct, 2023

实证鲁棒性与认证鲁棒性对抗对策间的缩小

本文介绍了一种新方法，即通过自适应实现认证，将经过对抗训练的模型转化为随机平滑分类器，在推理过程中提供 l2 范数的认证鲁棒性，同时不影响它们对抗攻击的经验鲁棒性。

Feb, 2021

基于扩散模型的认证对抗性容忍度提高

使用最先进的扩散模型生成额外的训练数据可以极大地提高敌对训练的鲁棒性，该方法同样可以明显提高确定性认证防御的鲁棒性，我们还提供了一些建议来扩展认证训练方法的鲁棒性。

May, 2023

通过对抗性输出日志更新推进对抗鲁棒性

在这项研究中，从理论的角度分析了成功的对抗攻击周围的逻辑差异，并提出了一种新的原则，即 Adversarial Logit Update (ALU)，用于推断对抗样本的标签。基于 ALU，引入了一种新的分类范式，利用预净化和后净化的逻辑差异来提高模型的对抗鲁棒性。经过广泛实验证明，所提出的解决方案在 CIFAR-10、CIFAR-100 和 tiny-ImageNet 数据集上相对于最先进的方法具有卓越的鲁棒性能。

Aug, 2023

加性噪声认证对抗鲁棒性

本文提出一种可扩展的用于构造对抗样本的方法，通过建立抵抗对抗扰动和加法噪声之间的联系，提出了一种训练策略，并在 MNIST 等数据集上进行了评估。

Sep, 2018

为强韧性还是为公平：走向对抗训练中的公平性

研究发现，对于一些平衡的数据集，在执行 Adversarial training algorithms 时将出现不同类别的数据准确度和鲁棒性的严重差异，因此提出了一种名为 Fair-Robust-Learning 的框架以解决这种不公平的问题，并在实验中验证了其有效性。

Oct, 2020

风格化对抗防御

利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动，将其应用于多任务目标并进行深度监督，提取多尺度特征知识以创建最大分离对手，随后提出最大间隔对抗训练方法，最小化源图像与其对手之间的距离，并最大化对手和目标图像之间的距离，证明与最先进的防御相比，我们提出的对抗训练方法表现出强大的鲁棒性，对自然出现的损坏和数据分布变化具有良好的泛化能力，并保留了模型在干净样本上的准确性。

Jul, 2020

随机分类器对抗性样本的鲁棒性

本文研究了对抗攻击的鲁棒性理论，聚焦于随机化分类器并通过统计学习理论和信息论提供了其行为的彻底分析。我们引入了随机化分类器的新鲁棒性概念，在此基础上进行了两项新的贡献：提出了一种新的随机化分类器对抗泛化间隙的上界限和对其进行了一种简单而有效的噪声注入方法来设计鲁棒的随机化分类器。我们还在 CIFAR-10 和 CIFAR-100 标准图像数据集上使用深度神经网络的实验结果证实了我们的发现。

Feb, 2021