Oct, 2023

冲突感知特征解释

TL;DR我们提出了一种新颖的特征归因方法 CAFE(冲突感知特征解释),它解决了现有方法中的三个限制:它们忽视冲突特征的影响,不考虑偏差项的影响,以及对基础激活函数的局部变化过于敏感。与其他方法不同,CAFE 在溯源神经元输入的影响上提供了防止效应被高估的保护措施,并单独跟踪输入特征和偏差的正负影响,从而增强了鲁棒性,并增加了表面冲突特征的能力。我们的实验证明,CAFE 能够更好地识别合成表格数据中的冲突特征,并在几个真实世界的表格数据集上具有最好的整体保真度,同时具有很高的计算效率。