本研究探讨了利用特征归因方法进行机器学习的解释,提出通过修改数据集来产生真实归因的方法,并对三种常见的归因方法:显著性图、原理和注意力进行评估,发现这些方法在野外数据集中的正确性和可靠性值得怀疑,建议在部署前使用基准来测试新的归因方法。
Apr, 2021
研究表明,模型的 baseline 对于特征归因的重要性具有重大影响,因此建议针对表格数据提出合理的 baseline 方法,并介绍了新的基线方法分类方法。
Jan, 2021
我们提出了一个遵循可信度准则的基于后门攻击的可解释人工智能基准(BackX),并且通过使用我们的基准对现有方法进行了综合比较和评估,同时为防御后门攻击提供了指导。
May, 2024
本文提出了一种基于放松的功能依赖概念的特征选择 / 归因的正式化方法,通过在合成数据集上计算基本真实的归因,评估了许多最先进的归因方法,并展示了即使在优化时,某些归因方法也无法验证所提出的属性并提供错误的解决方案。
通过真实因果关系框架提供一种将特征归因和反事实解释统一的解释方法,通过在 Adult-Income,LendingClub 和 German-Credit 三个基准数据集上的实验,发现 Feature attribution 方法和 counterfactual explanation 方法并不总是一致的,也表明了他们之间的互补性。
Nov, 2020
本文针对特征归因方法在存在输入和模型扰动时的鲁棒性问题,通过理论分析和实验验证探究了基于移除特征的归因方法在扰动情况下的稳健性。
Jun, 2023
本文提出了一种衡量深度神经网络特征重要性估计的近似准确性的经验方法,研究发现,在许多流行的可解释性方法中,只有某些集成方法,如 VarGrad 和 SmoothGrad-Squared,才能胜任随机指定特征重要性的任务。
Jun, 2018
本文针对机器学习中可解释性的问题进行了研究,提出了一组度量用于评估不同的可解释性方法,进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中,通过对不同的基准任务进行验证,并展示如何使用这些度量指导实践者选择最合适的方法,进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。
Jul, 2020
本研究第一次进行用户研究来证明特征归因图对于 ImageNet 分类和 Stanford Dogs 细粒度分类的辅助作用,在更难的分类任务上,特征归因图并没有帮助,相反会降低人工智能和人类团队的性能,并且自动特征归因图评估指标与实际人工智能 - 人类团队的表现相关性较差,本研究提倡社区在人机互动的应用中对他们的方法进行严格的测试,并重新思考现有的评估指标。
May, 2021
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码技术对解释质量的影响,评估它们在不同效应大小中的功效,并展示了基于排序的评估指标的不一致性的来源。
Apr, 2024