鲁棒归因正则化
本文研究了深度网络输入特征对预测的影响,提出了敏感性和实现不变性两个公理,并指出大部分已知的边缘归因方法并不满足这两个公理。最后,作者设计了一种不需要修改原始网络的全新边缘归因方法——集成梯度,并将其应用于图像、文本和化学模型中。结果表明,该方法不仅具有调试和提取规则的功能,还能够有效地帮助用户更好地使用模型。
Mar, 2017
本文提出了使用分布式鲁邦优化的思想来作为正则化技术以及对现有技术提供新的概率解释。通过选择半径,可以保证最坏情况下的预期损失提供了对测试数据的上限置信度,从而提供新的泛化界限。
Oct, 2017
本研究提出了一种训练方法(ART),能够减小图像空间相关性对模型解释鲁棒性的影响,并在多个标准数据集上显著提高了解释鲁棒性,并且在弱监督目标定位任务上实现了新的最佳性能。
Nov, 2019
该文章提出了一种用于改善深度神经网络中当前解释工具易受攻击的局限性的正则化方法(包括Lipschitz连续性的条件)和随机平滑技术,并在各种图像模型上进行实验以验证其效果和证明平滑几何在这些对真实大规模模型的攻击中所起的作用。
Jun, 2020
该研究提出一种名称为FAR的新型范式,用于通过在输入的局部领域内最小化属性映射的最大差异来训练模型的鲁棒属性。通过新模型AAT和AdvAAT的实验表明,所提出的方法在对抗干扰下都更有稳健性。
Oct, 2020
该研究论文旨在提出一种强健的归因训练策略来提高深度神经网络的归因鲁棒性,针对近年来的研究表明,尽管这些模型被给予两张非常相似的图像,但其产生的归因图可能会有很大的不同,从而引发了对其可信度的质疑。这个方法通过引入保护模型归因图免受攻击的两个新的正则器来提高归因鲁棒性,并在多个数据集上超越了最先进的归因鲁棒性方法。
Dec, 2020
本文介绍了解释深度神经网络的渐变解释性方法,讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用,并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。
Jul, 2021
本文提出了积分梯度正则化(IGR)方法,可以通过最大化自然和扰动归因之间的余弦相似度来获得健壮的模型归因,从而提高模型的对抗性稳健性。在不同模型和数据集上的实验验证了我们的分析结果。
May, 2022
本文提出新的思路,通过特征归因归一化改进局部梯度,提出了L2范数和余弦距离的规范化不变的损失函数作为正则化项,在CIFAR-10和ImageNet-100上实验表明该方法大大提高了解释的鲁棒性。
Nov, 2022