高斯过程分类的对抗性漏洞边界

AAAISep, 2019

Adversarial Vulnerability Bounds for Gaussian Process Classification

Michael Thomas Smith, Kathrin Grosse, Michael Backes, Mauricio A Alvarez

TL;DR本文提出了一种防止黑客攻击，保护机器学习分类器免受对抗性样本的影响的方法，通过一个对抗边界来限制潜在的对抗攻击产生误分类的能力并测试了其效果。

Abstract

machine learning (ML) classification is increasingly used in safety-critical systems. Protecting ML classifiers from adversarial examples

machine learning classification adversarial examples gaussian process classifier robustness

发现论文，激发创造

高斯过程在分类中的对抗性鲁棒性保证

本文研究了高斯过程分类模型的对抗鲁棒性，提出了一种计算 GPC 在输入空间中最小和最大分类概率的算法，并应用于 2D 合成数据集、SPAM 数据集和 MNIST 数据集的验证，表明我们的方法可用于 GPC 的可解释性分析和提高模型鲁棒性。

May, 2019

对抗环境下模型不确定性的局限性

研究机器学习模型中的对抗样本和贝叶斯神经网络的不确定性测量，并发现置信度和不确定性可能是无可疑的，即使输出是错误的；同时，对大多数任务，我们在影响不确定性和置信度方面发现微妙的差异。

Dec, 2018

任何分类器的对抗性易受攻击性

本文研究了对抗扰动现象，并推导了任何分类函数的鲁棒性的基本上界，以及证明了存在跨不同分类器传递的具有小风险的对抗扰动。研究显示了生成模型的关键属性，如平滑性和潜在空间的维度，并提供了信息量大的鲁棒性基线。

Feb, 2018

高斯过程贝叶斯推断的鲁棒性保证

本文探讨了对于 Bayesian 推断模型的输入扰动的鲁棒性估计问题，通过使用高斯过程理论并提出算法计算当前模型在输入空间中的紧密强度，并应用于两个例子中：一个 GP 回归问题和一个全连接深度神经网络来研究 MNIST 数据集上的对抗性例子。

Sep, 2018

对成功的对抗样本的鲁棒性界限：理论与实践

该研究选择了对抗样本（AE）作为机器学习的一种攻击方法，通过对数据添加不可感知的扰动来诱导错分。研究通过使用高斯过程（GP）分类，探究了成功 AE 的概率上限，并证明了该上限取决于 AE 的扰动范数、GP 中使用的核函数以及训练数据集中不同标签最近对之间的距离。令人惊讶的是，该上限并不依赖于样本数据集的分布情况。通过在 ImageNet 上进行的实验证明了我们的理论结果，并展示了改变核函数参数会导致成功 AE 概率上限的变化。

Mar, 2024

来自加密伪随机生成器的对抗性样本

我们在最近的工作中（Bubeck，Price，Razenshteyn, arXiv:1805.10204）指出，机器学习中的对抗性例子可能是由于问题固有的计算难度造成的。更确切地说，我们构建了一个二元分类任务，其中（i）存在强大的鲁棒分类器；但在（ii）统计查询模型中无法使用有效算法获得任何非平凡的准确性。在本文中，我们显着加强了（i）和（ii）：我们现在构建了一个任务，该任务允许（i'）最大限度地鲁棒的分类器（即它可以容忍与示例本身大小相当的扰动）；此外，我们证明了在（ii'）标准加密假设下学习此任务的计算困难性。

Nov, 2018

无限制的对抗样本

本研究引入了一个两人对弈的竞赛，用于评估机器学习系统的安全性和鲁棒性，针对非范数约束的对手进行研究。防御方提交机器学习模型，试图在非对手数据上实现高准确性和覆盖率，并在对抗性输入上没有自信错误。攻击者试图通过寻找任意的明确输入，在其高置信度下将错误标签分配给模型来破坏防御。我们提出了一个简单的明确数据集（“鸟或自行车”）作为本竞赛的一部分。我们希望这个竞赛能够帮助更全面地评估机器学习模型的最坏对抗风险。

Sep, 2018

黑盒学习系统中对抗样本的阻断可迁移性

本文提出了一种训练方法来防止黑盒学习系统受到对抗性示例的攻击，该方法通过在输出类集中增加一个 NULL 标签并训练分类器将对抗性示例分类为 NULL 来阻止其可转让性。实验表明该方法能够有效抵御对抗性示例的攻击，同时在干净数据上保持准确度。

Mar, 2017

高斯过程赌博机的对抗攻击

本文从攻击者的角度研究了在高代价和潜在噪音条件下使用 Gaussian processes 进行优化的问题，并提出了不同假设攻击者强度和先前信息的不同对策，通过对函数 $f$ 进行干扰而导致算法朝着目标区域移动。作者设计了白盒和黑盒攻击方法，并展示了这些攻击在低攻击预算下能够成功地将算法强制推向目标区域，并在各种客观函数上测试了攻击的有效性。

Oct, 2021

黑盒认证与对抗扰动下的学习

该研究从学习者和第三方认证者的角度正式研究了分类问题，并考虑了半监督学习框架下 VC - 类的适当学习的可能性和不可能性结果。该研究还探讨了黑盒认证在有限查询预算下的黑盒对手视角，提出了一些预测器和扰动类别的分析，并证明了具有多项式查询复杂性的对手的存在可以暗示存在样本高效稳健的学习者。

Jun, 2020