灰盒对抗训练

ECCVAug, 2018

Gray-box Adversarial Training

Vivek B.S., Konda Reddy Mopuri, R. Venkatesh Babu

TL;DR本文介绍了对抗性训练及其在构建鲁棒模型方面的应用，提出了新型白盒和黑盒攻击，即灰盒对抗攻击，提出了一种新颖的模型鲁棒性评估方法，并提出了一种新型的对抗性训练：灰盒对抗训练，其使用模型的中间版本来引导敌手生成更加有效的对抗样本，实验证明此方面的成果优于传统方法。

Abstract

Adversarial samples are perturbed inputs crafted to mislead the machine learning systems. A training mechanism, called adversarial training, which presents adversarial samples along with clean samples has been introduced to learn →

adversarial training robust models black-box attacks gray-box attacks evaluation method

发现论文，激发创造

对抗训练可能是把双刃剑

本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性，以及在黑盒攻击下的细微差别，并定义了鲁棒性增益的度量指标来衡量其效果。研究表明，尽管对抗训练是提高白盒场景下的鲁棒性的有效方法，但对于更现实的基于决策的黑盒攻击，则可能无法提供如此良好的鲁棒性增益。此外，即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。

Jul, 2021

计算机视觉模型的黑盒对抗攻击综述

该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究，旨在提高模型的鲁棒性。

Dec, 2019

集成对抗训练：攻击和防御

该研究论文探讨了对抗性样本及训练，以及如何生成更强的对抗性样本以提高鲁棒性，介绍了集成对抗性训练技术，并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。

May, 2017

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

黑盒对抗迁移性：一个基于网络安全的经验研究

在网络安全领域中，人工智能的快速发展引起了重大安全关注，深度学习模型在对抗性攻击中的脆弱性是主要问题之一，该研究的关键贡献是在网络攻击检测系统中经验性地测试黑盒对抗转移现象，并验证了任何深度学习模型都极易受到对抗攻击的影响，即使攻击者无法访问目标模型的内部细节，白盒对抗攻击相比黑盒对抗攻击具有更严重的影响。因此，有必要研究和探索对抗性防御技术以增强深度学习模型对对抗攻击的鲁棒性。

Apr, 2024

规模化对抗机器学习

将对抗训练应用于 ImageNet，并提出了如何将对抗训练成功扩展到大型模型和数据集的建议，发现对抗训练能增加对单步攻击方法的鲁棒性，单步攻击方法比多步攻击方法更难以传递，使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应，因为对抗样本构建过程使用真实标签，模型可以学习利用构建过程的规律，使经过对抗训练的模型在对抗示例上表现比正常示例更好。

Nov, 2016

从白到黑：高效黑盒对抗攻击蒸馏

本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络，证明了白盒攻击优化过程所隐含的知识可以被提取并泛化，可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性，扰乱 API 的预测结果，而人类对黄金标签的预测准确率仍然很高。

Apr, 2019

评分黑盒模型的对抗鲁棒性

研究了深度神经网络对抗攻击的鲁棒性，提出了一种适用于黑盒模型的简单评分方法，并发现更鲁棒的模型具有更小的 LIME 权重 l1 范数和更锐利的解释。

Oct, 2022

离散对抗训练实现模型的鲁棒性

本文提出离散对抗攻击的在线增强方法，使用基于最佳优先搜索和随机抽样的攻击策略来生成对抗性样本，结果表明使用随机抽样方法能够显著提高鲁棒性，而且比之前使用的离线增强方法速度提高了约 10 倍。

Apr, 2021

计算机视觉中对抗攻击综述

深度神经网络被广泛用于各种下游任务，尤其是自动驾驶等安全关键场景，但深度网络常常受到对抗样本的威胁。对抗攻击可以分为白盒攻击和黑盒攻击，前者攻击者知道模型的参数和梯度，后者攻击者只能获取模型的输入和输出。攻击者的目的可以分为有目标攻击和非有目标攻击，黑盒设置是我们实践中会遇到的情况。

Aug, 2023