概率异常：检测对抗样本的统计测试

Feb, 2019

概率异常：检测对抗样本的统计测试

The Odds are Odd: A Statistical Test for Detecting Adversarial Examples

Kevin Roth, Yannic Kilcher, Thomas Hofmann

TL;DR通过计算测试统计量并利用对抗攻击引入的异常，我们提出了一种方法来可靠地检测被恶意策略改动的样本，并证明了在一定条件下此方法的有效性，我们在实验中也展示了此方法可以以高精度纠正对抗攻击的测试时间预测。

Abstract

We investigate conditions under which test statistics exist that can reliably detect examples, which have been adversarially manipulated in a white-box attack. These statistics can be easily computed and calibrated by randomly corrupting inputs. They exploit certain anomalies that

adversarial attacks test statistics p-norm constraints log-odds detectability

发现论文，激发创造

赔率是否真的奇怪？绕过对抗性样本的统计检测

本文提出了基于统计学检测方法的分类器适应方法，提高了检测性能；并且提出了 Logit Mimicry Attack 方法生成对抗样本，通过该方法可以避开统计学检测和分类器方法；最后，通过该文献，可以证明对抗样本的检测，统计学检测和分类器检测都不具备鲁棒性。

Jul, 2019

关于（统计）检测对抗样本的研究

本文研究如何检测机器学习中的对抗性样本，提出使用统计检验和模型增强的方法来识别对抗性样本，并参照多个数据集和对抗样本制作方法进行实验，结果表明统计学特性对于检测对抗性样本至关重要。

Feb, 2017

解读后续离群检测器对于对抗鲁棒性的定义

研究检测和防御方法，以保护深度学习模型免受不符合预期数据、对抗性示例和逃避攻击的影响。

Jun, 2024

检测对抗样本的难度与分类相近

本研究研究如何使分类器对抗性示例具有良好的鲁棒性，但事实上许多防御措施都更加致力于检测受到干扰的输入，作者针对这一目标展开了研究，他们证明了在检测与分类对抗性示例这一问题上存在的一般性困难约束，并阐明了这一结论的重要性和应用前景。

Jul, 2021

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

通过对抗性样本检测过拟合

该研究提出了一种利用原始测试数据来检测过拟合的新方法，使用对抗性示例和重要性加权的无偏误差估计，尤其适用于多类图像分类模型在 ImageNet 基准测试上的过拟合检测。

Mar, 2019

可证明鲁棒性的无需付出昂贵代价的异常检测

研究使用机器学习技术的安全关键系统需要可靠的不确定性评估。本研究发现，深度神经网络在处理分布外数据时可能会产生过度自信的预测。本研究提出了一种具有保护分布外数据和高准确度的分类器，并提供所有实验代码。

Jun, 2021

扩散去噪平滑在认证和对抗鲁棒的 ODD 检测中的应用

研究机器学习中如何确定训练分布和 ODD（Out-Of-Distribution）样本的检测机制，提出了一种基于 l2 范数的无需特定组件或训练的 ODD 鲁棒性证明的新方法以及改进了检测 ODD 攻击技巧的现有技术，在 CIFAR10 / 100 平均 OOD 检测度量方面相对于之前的方法有约 13％/ 5％的提高，并在分布内样本上提供高水平的认证和敌对鲁棒性。

Mar, 2023

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

快速自适应边界攻击生成最小扭曲的对抗样本

本文提出了一种新的基于 $l_p$-norms 的白盒对抗攻击方法，通过最小化扰动的大小来改变特定输入的类别，这个方法具有几何直观性，是一种性能优越的攻击方法，比专门针对一个 $l_p$-norm 的攻击方法具有更好的鲁棒性，并且可以解决梯度掩盖的问题。

Jul, 2019