集成对抗训练：攻击和防御

ICLRMay, 2017

Ensemble Adversarial Training: Attacks and Defenses

Florian Tramèr, Alexey Kurakin, Nicolas Papernot, Ian Goodfellow, Dan Boneh...

TL;DR该研究论文探讨了对抗性样本及训练，以及如何生成更强的对抗性样本以提高鲁棒性，介绍了集成对抗性训练技术，并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。

Abstract

adversarial examples are perturbed inputs designed to fool machine learning models. adversarial training injects such examples into training data to increase →

adversarial examples adversarial training black-box attacks ensemble adversarial training robustness

发现论文，激发创造

规模化对抗机器学习

将对抗训练应用于 ImageNet，并提出了如何将对抗训练成功扩展到大型模型和数据集的建议，发现对抗训练能增加对单步攻击方法的鲁棒性，单步攻击方法比多步攻击方法更难以传递，使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应，因为对抗样本构建过程使用真实标签，模型可以学习利用构建过程的规律，使经过对抗训练的模型在对抗示例上表现比正常示例更好。

Nov, 2016

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

对抗训练的规范不可知鲁棒性

本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法，证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性，提出可能的解决方案及其局限性。

May, 2019

灰盒对抗训练

本文介绍了对抗性训练及其在构建鲁棒模型方面的应用，提出了新型白盒和黑盒攻击，即灰盒对抗攻击，提出了一种新颖的模型鲁棒性评估方法，并提出了一种新型的对抗性训练：灰盒对抗训练，其使用模型的中间版本来引导敌手生成更加有效的对抗样本，实验证明此方面的成果优于传统方法。

Aug, 2018

实例自适应对抗训练：神经网络中更好的准确性和权衡

本文提出了一种实例自适应对抗训练技术，通过在每个训练样本周围施加特定的扰动边缘来实现更好的泛化能力和测试准确性。

Oct, 2019

数量大于强度：通过对抗训练的集合优化鲁棒性和计算效率

通过对对抗样本的数据增广训练神经网络模型，以提高模型的抗干扰性，并发现通过将小型模型构成的集成模型一起进行对抗训练相比使用单个大模型的训练更有效。而重点在于对整个集成模型的对抗训练，而不是只对每个模型进行对抗训练。

Nov, 2018

风格化对抗防御

利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动，将其应用于多任务目标并进行深度监督，提取多尺度特征知识以创建最大分离对手，随后提出最大间隔对抗训练方法，最小化源图像与其对手之间的距离，并最大化对手和目标图像之间的距离，证明与最先进的防御相比，我们提出的对抗训练方法表现出强大的鲁棒性，对自然出现的损坏和数据分布变化具有良好的泛化能力，并保留了模型在干净样本上的准确性。

Jul, 2020

深度神经网络对抗扰动的防御方法：集成学习

采用集成方法作为防御策略可增强神经网络在 MNIST 和 CIFAR-10 数据集中对于对抗扰动的鲁棒性。

Sep, 2017

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

CAAD 2018: 迭代性集成对抗攻击

本文提出了一种针对图像分类器集合的迭代式对抗攻击方法，通过此方法，在 CAAD 2018 针对性对抗攻击竞赛中获得第五名，该方法提高了黑匣子对抗攻击的成功率。

Nov, 2018