概率异常:检测对抗样本的统计测试
本文提出了基于统计学检测方法的分类器适应方法,提高了检测性能;并且提出了 Logit Mimicry Attack 方法生成对抗样本,通过该方法可以避开统计学检测和分类器方法;最后,通过该文献,可以证明对抗样本的检测,统计学检测和分类器检测都不具备鲁棒性。
Jul, 2019
本文研究如何检测机器学习中的对抗性样本,提出使用统计检验和模型增强的方法来识别对抗性样本,并参照多个数据集和对抗样本制作方法进行实验,结果表明统计学特性对于检测对抗性样本至关重要。
Feb, 2017
本研究研究如何使分类器对抗性示例具有良好的鲁棒性,但事实上许多防御措施都更加致力于检测受到干扰的输入,作者针对这一目标展开了研究,他们证明了在检测与分类对抗性示例这一问题上存在的一般性困难约束,并阐明了这一结论的重要性和应用前景。
Jul, 2021
该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系,从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。
Jan, 2019
该研究提出了一种利用原始测试数据来检测过拟合的新方法,使用对抗性示例和重要性加权的无偏误差估计,尤其适用于多类图像分类模型在 ImageNet 基准测试上的过拟合检测。
Mar, 2019
研究使用机器学习技术的安全关键系统需要可靠的不确定性评估。本研究发现,深度神经网络在处理分布外数据时可能会产生过度自信的预测。本研究提出了一种具有保护分布外数据和高准确度的分类器,并提供所有实验代码。
Jun, 2021
研究机器学习中如何确定训练分布和 ODD(Out-Of-Distribution)样本的检测机制,提出了一种基于 l2 范数的无需特定组件或训练的 ODD 鲁棒性证明的新方法以及改进了检测 ODD 攻击技巧的现有技术,在 CIFAR10 / 100 平均 OOD 检测度量方面相对于之前的方法有约 13%/ 5%的提高,并在分布内样本上提供高水平的认证和敌对鲁棒性。
Mar, 2023
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021
本文提出了一种新的基于 $l_p$-norms 的白盒对抗攻击方法,通过最小化扰动的大小来改变特定输入的类别,这个方法具有几何直观性,是一种性能优越的攻击方法,比专门针对一个 $l_p$-norm 的攻击方法具有更好的鲁棒性,并且可以解决梯度掩盖的问题。
Jul, 2019