对抗样本研究中的游戏规则动机

Jul, 2018

Motivating the Rules of the Game for Adversarial Example Research

Justin Gilmer, Ryan P. Adams, Ian Goodfellow, David Andersen, George E. Dahl

TL;DR本文介绍如何通过建立人们更真实可靠的威胁模型，从而更好地保护机器学习在实际应用中的安全性。

Abstract

Advances in machine learning have led to broad deployment of systems with impressive performance on important problems. Nonetheless, these systems can be induced to make errors on data that are surprisingly similar to examples the learned system handles correctly. The existence of thes

machine learning security concerns adversarial example defense attackers evaluation

发现论文，激发创造

现代机器学习中的对抗样本：一次回顾

本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨，并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。

Nov, 2019

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

对抗样本 - 现象的完整特征描述

本研究提供了对毒瘤样本现象的完整刻画，目的在于涵盖研究领域的所有重要方面：（1）毒瘤样本存在的假设，（2）对安全性、可靠性和稳健性的影响，（3）生成和保护对抗样本的方法，（4）毒瘤样本在不同机器学习模型之间的转移能力。（5）本文提供充足的背景信息，可作为调查、教程或使用毒瘤样本进行攻击和防御的目录。

Oct, 2018

物理世界中的对抗样本

本文研究表明即使在物理世界的情境下，机器学习系统仍然容易受到敌对样本的攻击，并通过将手机摄像头获取的对抗性图像输入 ImageNet Inception 分类器，并测量系统的分类精度来证明了这一点。

Jul, 2016

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

良性对抗攻击：欺骗模型以取得好结果

本文提出了利用对抗样本的善意攻击来探索攻击的本质并尝试解决机器学习中的对抗性问题。我们将对抗样本归因于模型和人类之间在使用非语义特征方面的差异，并针对此特性提出了三个方向的创新性应用：对抗图灵测试、拒绝恶意模型应用和对抗数据增强。

Jul, 2021

分析对抗样本：一个研究对手知识的框架

对于机器学习模型而言，对抗性样本是指触发误分类的恶意输入。我们发现当进行攻击时，对抗者的知识缺乏研究和形式化，导致攻击研究领域在威胁模型和攻击方法上非常复杂且难以比较。本研究在图像分类领域提供了一个受序理论启发的理论框架来研究对抗者的知识，同时提出了一个受密码学游戏启发的对抗性样本游戏来标准化攻击。通过对最近的图像分类领域攻击进行整理和分类，我们从中总结出攻击者的知识，既验证了关于对抗者知识的现有观点，如受攻击模型信息的重要性，也得出了新的结论，例如白盒和可传递威胁模型的困难程度可能没有之前想象的那么高。

Feb, 2024

无限制的对抗样本

本研究引入了一个两人对弈的竞赛，用于评估机器学习系统的安全性和鲁棒性，针对非范数约束的对手进行研究。防御方提交机器学习模型，试图在非对手数据上实现高准确性和覆盖率，并在对抗性输入上没有自信错误。攻击者试图通过寻找任意的明确输入，在其高置信度下将错误标签分配给模型来破坏防御。我们提出了一个简单的明确数据集（“鸟或自行车”）作为本竞赛的一部分。我们希望这个竞赛能够帮助更全面地评估机器学习模型的最坏对抗风险。

Sep, 2018

图像分类中的对抗机器学习：从防御者的视角进行调查

这篇论文探讨了深度学习在图像分类中的安全问题，介绍了针对对抗攻击和对抗防御的新分类方法，提供了研究者需要考虑的相关指导，并讨论了未来研究的方向。

Sep, 2020

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021