离群数据:对抗样本的熟悉——综述
本文主要研究深度学习模型在检测 in-distribution 和 OOD inputs 时受到极小对抗扰动的影响,并提出了一种名为 ALOE 的有效算法,该算法通过将模型暴露于经过对抗训练的 inlier 和 outlier examples 中的方式,可以灵活地与现有方法相结合,提高现有的 Out-of-distribution detection 方法的鲁棒性,CIFAR-10 和 CIFAR-100 数据集的 AUROC 分别提高了58.4% 和46.59%。
Mar, 2020
本研究提出了一种理论上动机驱动、运用了有意义外部数据挖掘的对抗训练算法 ATOM,从而提高了深度学习模型的Out-of-Distribution Detection能力,在包括对抗式输入在内的广泛经典OOD检测任务中,实现了最佳性能。
Jun, 2020
本研究证明无法保证模型在没有假设相关的未知分布情况下仍具备比随机猜测更好的性能,且模型误差是 OOD 检测失败的更可靠说明,而不是数据分布的可能性。
Jul, 2021
对比分析了文本分类模型中常见的三种输入样本:分布内、分布外和对抗样本,并提出一种基于模型隐藏表示和输出概率的简单方法,有效地区分了这三种输入样本。
Apr, 2022
研究机器学习中如何确定训练分布和ODD(Out-Of-Distribution)样本的检测机制,提出了一种基于l2范数的无需特定组件或训练的ODD鲁棒性证明的新方法以及改进了检测ODD攻击技巧的现有技术,在CIFAR10 / 100平均OOD检测度量方面相对于之前的方法有约13%/ 5%的提高,并在分布内样本上提供高水平的认证和敌对鲁棒性。
Mar, 2023
现有研究在提高对抗鲁棒性方面取得了很大进展,但通常只在与训练数据相同分布的数据上进行测试,即内分布(ID)测试。然而,如何在输入分布转移(即出分布(OOD)测试)下实现这种鲁棒性的泛化仍不清楚。因此,我们提出了一个名为OODRobustBench的基准来全面评估OOD对抗鲁棒性,使用23种数据集级的转移(即输入分布中的自然转移)和6种威胁级的转移(即未知的对抗威胁模型)。OODRobustBench用于评估706个稳健模型,使用60.7K个对抗性评估。这个大规模分析显示:1)对抗鲁棒性在OOD泛化问题上存在严重问题;2)ID鲁棒性与OOD鲁棒性在许多分布转移下呈正线性相关,这使得可以从ID鲁棒性预测OOD鲁棒性。基于这一点,我们能够预测现有强化训练方案的OOD鲁棒性的上限。研究结果表明,实现OOD鲁棒性需要设计超出传统方法的新方法。最后,我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高OOD鲁棒性。值得注意的是,与基准相比,发现的训练方案在威胁转移下表现出明显更高的鲁棒性,同时保持高的ID鲁棒性,为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。
Oct, 2023
本研究针对现有分布外检测方法在面对对抗性攻击时的脆弱性,提出了一种新颖的方法AROS,结合神经常微分方程和Lyapunov稳定性理论,以获得鲁棒的嵌入表示。通过引入专门的损失函数和合成的伪分布外嵌入,该方法显著提高了在对抗攻击下的鲁棒检测性能,提高率达80.1%和67.0%。
Oct, 2024
本文解决了深度神经网络(DNN)在分布外(OOD)样本检测中的信息丢失问题。研究表明,DNN内在的低维化特性使OOD样本与正常样本在特征传播过程中变得更加明显,并提出了一种基于特征与权重对齐的维度感知的OOD检测方法,显著降低计算成本的同时提高了检测准确率。
Oct, 2024