对抗样本不是真实特征
本研究通过理论模型和实验数据,证明了对抗样本的普遍存在是由于数据分布中存在易碎且难以理解的非鲁棒特征的存在,进而解释了目前算法鲁棒性需要的人类专家知识与数据自身特性之间的不匹配性问题。
May, 2019
通过分离鲁棒特征和领域特定特征,我们提出了一个鲁棒特征分离模型,以增强模型的对抗性鲁棒性。同时,训练出的领域鉴别器几乎完美地能够识别出干净图像和对抗性样本中的领域特定特征,从而无需额外的计算成本实现对抗性样本的检测。这样一来,我们可以为干净图像和对抗性样本指定不同的分类器,避免了干净图像准确率的降低。
Sep, 2023
该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系,从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。
Jan, 2019
本文提出了一种通过 Information Bottleneck 明确地提炼出稳健特征和非稳健特征的方法,这些特征高度相关于对抗性预测并具有人类可感知的语义信息。此外,我们还提出了一种攻击机制来强化与模型预测直接相关的非稳健特征,并验证了其破坏模型鲁棒性的效果。
Apr, 2022
本文提出了利用对抗样本的善意攻击来探索攻击的本质并尝试解决机器学习中的对抗性问题。我们将对抗样本归因于模型和人类之间在使用非语义特征方面的差异,并针对此特性提出了三个方向的创新性应用:对抗图灵测试、拒绝恶意模型应用和对抗数据增强。
Jul, 2021
我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例:语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上,鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外,当直接在反事实例上进行评估时,鲁棒模型的性能非常差,因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明,非鲁棒和语义特征之间存在显著的重叠,与普遍的非鲁棒特征不可解释的假设相反。
Apr, 2024
本文研究深度学习中的对抗样本问题,认为过度自信的模型更容易受到对抗样本的攻击,通过将鲁棒性与非校准模型置信度结合, 提供一种不需要数据增强的前进路径,探究对抗样本现象的成因并阐述了测试准确度与真实泛化性能之间的区别以及过拟合与随机效应的关系。
Feb, 2018
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021