无限制的对抗样本

Sep, 2018

Unrestricted Adversarial Examples

Tom B. Brown, Nicholas Carlini, Chiyuan Zhang, Catherine Olsson, Paul Christiano...

TL;DR本研究引入了一个两人对弈的竞赛，用于评估机器学习系统的安全性和鲁棒性，针对非范数约束的对手进行研究。防御方提交机器学习模型，试图在非对手数据上实现高准确性和覆盖率，并在对抗性输入上没有自信错误。攻击者试图通过寻找任意的明确输入，在其高置信度下将错误标签分配给模型来破坏防御。我们提出了一个简单的明确数据集（“鸟或自行车”）作为本竞赛的一部分。我们希望这个竞赛能够帮助更全面地评估机器学习模型的最坏对抗风险。

Abstract

We introduce a two-player contest for evaluating the safety and robustness of machine learning systems, with a large prize pool. Unlike most prior work in ML robustness, which studies norm-constrained adversaries, we shift our focus to →

machine learning systems ml robustness unconstrained adversaries adversarial inputs worst-case adversarial risk

发现论文，激发创造

ImageNet 比赛中的无限制对抗攻击

该研究旨在探索更有效的无限制对抗性攻击算法，以加快在更强的无边界攻击下的模型稳健性的学术研究，并组织了一项比赛来促进此领域的发展。

Oct, 2021

现实有多真实？一种无限制对抗样本的人类评估框架

通过对图像领域的方法进行调查，我们注意到对所提议的图像修改进行人类评估的需求。基于现有的图像生成质量人类评估框架，我们提出了 SCOOTER - 一种用于无限制图像攻击的评估框架。它为研究人员提供了进行具有统计意义的人类实验的指南，标准化问题以及可直接使用的实现。我们提出了一种框架，允许研究人员分析他们的无限制攻击是否真正不可察觉。

Apr, 2024

伦理对手：通过对抗机器学习缓解不公平现象

提出了一个框架以减少训练数据集中不公平的代表性，其中使用两个相互操作的对手功能来提高公平性。首先，通过训练模型防止猜测受保护属性的值，同时限制效用损失，实现模型公平性优化。然后，利用对抗机器学习的规避攻击生成新的被错误分类的例子，并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用，直到显著提高公平性。

May, 2020

现代机器学习中的对抗样本：一次回顾

本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨，并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。

Nov, 2019

对抗样本研究中的游戏规则动机

本文介绍如何通过建立人们更真实可靠的威胁模型，从而更好地保护机器学习在实际应用中的安全性。

Jul, 2018

使用生成模型构建不受限制的对抗样本

本文提出了一种新的威胁模型，即无限制敌对样本。通过条件生成模型，利用辅助分类生成对抗网络（AC-GAN）对数据进行分类，搜索潜空间并生成可能是该类别的在传统敌对攻击中被误分类的图像，证明它们确实属于该类别，并表明无限制敌对样本可以绕过传统的敌对训练和认证的攻击防御方法。

May, 2018

物理世界中的对抗样本

本文研究表明即使在物理世界的情境下，机器学习系统仍然容易受到敌对样本的攻击，并通过将手机摄像头获取的对抗性图像输入 ImageNet Inception 分类器，并测量系统的分类精度来证明了这一点。

Jul, 2016

对抗机器学习中的防御措施综述

机器学习系统中的对抗现象给实际应用带来了严重安全威胁，本调查旨在从统一的视角对现有的防御机制进行系统回顾，通过将机器学习系统划分为预训练、训练、后训练、部署和推断等五个阶段，提出明确的分类法，以分析各个防御机制的机制、联系和差异，并激发未来研究开发更先进、全面的防御机制。

Dec, 2023

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

对抗环境下模型不确定性的局限性

研究机器学习模型中的对抗样本和贝叶斯神经网络的不确定性测量，并发现置信度和不确定性可能是无可疑的，即使输出是错误的；同时，对大多数任务，我们在影响不确定性和置信度方面发现微妙的差异。

Dec, 2018