鲁棒归因正则化
该研究论文旨在提出一种强健的归因训练策略来提高深度神经网络的归因鲁棒性,针对近年来的研究表明,尽管这些模型被给予两张非常相似的图像,但其产生的归因图可能会有很大的不同,从而引发了对其可信度的质疑。这个方法通过引入保护模型归因图免受攻击的两个新的正则器来提高归因鲁棒性,并在多个数据集上超越了最先进的归因鲁棒性方法。
Dec, 2020
本文研究了深度网络输入特征对预测的影响,提出了敏感性和实现不变性两个公理,并指出大部分已知的边缘归因方法并不满足这两个公理。最后,作者设计了一种不需要修改原始网络的全新边缘归因方法 —— 集成梯度,并将其应用于图像、文本和化学模型中。结果表明,该方法不仅具有调试和提取规则的功能,还能够有效地帮助用户更好地使用模型。
Mar, 2017
本研究提出基于期望梯度的新型特征归因方法,并以此为基础推导了新的可调控归因先验。实验结果表明,该方法在图像、基因表达和医疗数据集中均具有较好的性能,可以有效优化模型的解释性能。
Jun, 2019
本研究提出了一种训练方法(ART),能够减小图像空间相关性对模型解释鲁棒性的影响,并在多个标准数据集上显著提高了解释鲁棒性,并且在弱监督目标定位任务上实现了新的最佳性能。
Nov, 2019
机器学习模型的可靠性和可信度要求其决策具有可解释性,尤其在安全关键应用中,模型预测和解释(作为特征归因)对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的,并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因:首先,现有的鲁棒性度量指标(例如,top-k 交集)对于合理的本地归因偏移进行了过度惩罚,因此使得随机扰动呈现出强攻击的效果;其次,即使图像中存在多个重要部分,归因可以集中在一个小区域中。为了纠正这一点,我们提出了一些简单的方法来加强现有的度量指标和归因方法,这些方法将像素的局部性纳入鲁棒性度量指标中,并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用,我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因,然而,在较大的数据集中,这种优势消失了。代码可在此 https URL 获得。
Dec, 2023
本文介绍了解释深度神经网络的渐变解释性方法,讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用,并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。
Jul, 2021
本文提出了对于神经网络的输出解释的一种新方法 —— 基于特征归因向量,探究了该方法的 “稀疏性” 及 “稳定性”,对单层网络进行理论探索证明使用对抗训练可以获得稀疏的特征归因向量,该特性不仅在单层网络中适用,而且在深度神经网络中也具有普适性;并对现有的网络训练方法进行对比探究。
Oct, 2018
该文章提出了一种用于改善深度神经网络中当前解释工具易受攻击的局限性的正则化方法(包括 Lipschitz 连续性的条件)和随机平滑技术,并在各种图像模型上进行实验以验证其效果和证明平滑几何在这些对真实大规模模型的攻击中所起的作用。
Jun, 2020
本文研究了神经网络建模的正则化视角,通过将模型向分类决策边界的平滑变化进行防御,使其尽可能不改变预测结果,但会导致预测结果的置信度下降,这种正则化方法要避免性能下降。
Nov, 2020