安全第一：通过对抗训练防范欺骗性对手

Feb, 2021

安全第一：通过对抗训练防范欺骗性对手

Better Safe Than Sorry: Preventing Delusive Adversaries with Adversarial Training

Lue Tao, Lei Feng, Jinfeng Yi, Sheng-Jun Huang, Songcan Chen

TL;DR本文证明了敌对训练可以作为防御欺骗攻击的可靠方法，并通过实验验证了其鲁棒性。敌对训练在自然环境中抵御欺骗攻击的机制是通过避免学习器过度依赖非鲁棒特征。

Abstract

delusive attacks aim to substantially deteriorate the test accuracy of the learning model by slightly perturbing the features of correctly labeled training examples. By formalizing this malicious attack as findin

adversarial training delusive attacks training data test accuracy robust features

发现论文，激发创造

集成对抗训练：攻击和防御

该研究论文探讨了对抗性样本及训练，以及如何生成更强的对抗性样本以提高鲁棒性，介绍了集成对抗性训练技术，并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。

May, 2017

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

风格化对抗防御

利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动，将其应用于多任务目标并进行深度监督，提取多尺度特征知识以创建最大分离对手，随后提出最大间隔对抗训练方法，最小化源图像与其对手之间的距离，并最大化对手和目标图像之间的距离，证明与最先进的防御相比，我们提出的对抗训练方法表现出强大的鲁棒性，对自然出现的损坏和数据分布变化具有良好的泛化能力，并保留了模型在干净样本上的准确性。

Jul, 2020

对抗训练可能会损害泛化

本文研究了对抗训练在提高鲁棒精度（对抗方面）的同时又有可能降低标准精度（没有对抗方面）。通过构造凸学习问题，我们发现鲁棒精度和泛化能力之间存在基本的紧张关系，而利用未标记的数据进行鲁棒自我训练可以消除这种关系。

Jun, 2019

对抗训练的规范不可知鲁棒性

本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法，证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性，提出可能的解决方案及其局限性。

May, 2019

对抗训练与权重衰减

该研究旨在提升机器学习模型的稳健性，研究发现在包括未知扰动的情况下，权重衰减表现更佳，并结合对抗性训练实现较强的白盒攻击抵御能力。

Apr, 2018

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

对抗训练可能是把双刃剑

本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性，以及在黑盒攻击下的细微差别，并定义了鲁棒性增益的度量指标来衡量其效果。研究表明，尽管对抗训练是提高白盒场景下的鲁棒性的有效方法，但对于更现实的基于决策的黑盒攻击，则可能无法提供如此良好的鲁棒性增益。此外，即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。

Jul, 2021

半无限约束学习的对抗鲁棒性

本文通过半无限优化和非凸对偶理论的研究，证明对抗性训练等价于在扰动分布上的统计问题，并对此进行完整的表征。我们提出一种基于 Langevin Monte Carlo 的混合方法，可以缓解鲁棒性与标准性能之间的平衡问题，并取得了 MNIST 和 CIFAR-10 等领域最先进的结果。

Oct, 2021

软对抗训练可以保留自然准确度

本文研究用抽象认证来提取子输入以进行软对抗训练，提出了一个培训框架，能在约束条件下保持自然精度而不牺牲强健性，证明了软对抗性训练在对抗攻击防御方面的可行性，并提出了未来工作的范围以进一步改进该框架。

Jun, 2022