关于本地特征归因基线的研究
数据归因是理解机器学习模型的关键方法之一,我们提出了一种基于自监督学习预训练的最小化基线方法,对图像数据进行归因,这种方法计算成本低、内存占用少、易于扩展,且在 CIFAR-10 和 ImageNet 上实现了与现有方法相媲美甚至更好的性能。
Nov, 2023
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码技术对解释质量的影响,评估它们在不同效应大小中的功效,并展示了基于排序的评估指标的不一致性的来源。
Apr, 2024
该研究提出了一个基准测试框架,用于定量评估不同的特征归因方法的效果,并指出某些方法更容易产生错误的特征解释,该框架包括精心设计的数据集、已知相对特征重要性的模型和三个互补的度量标准。
Jul, 2019
本研究探讨了利用特征归因方法进行机器学习的解释,提出通过修改数据集来产生真实归因的方法,并对三种常见的归因方法:显著性图、原理和注意力进行评估,发现这些方法在野外数据集中的正确性和可靠性值得怀疑,建议在部署前使用基准来测试新的归因方法。
Apr, 2021
机器学习模型的可靠性和可信度要求其决策具有可解释性,尤其在安全关键应用中,模型预测和解释(作为特征归因)对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的,并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因:首先,现有的鲁棒性度量指标(例如,top-k 交集)对于合理的本地归因偏移进行了过度惩罚,因此使得随机扰动呈现出强攻击的效果;其次,即使图像中存在多个重要部分,归因可以集中在一个小区域中。为了纠正这一点,我们提出了一些简单的方法来加强现有的度量指标和归因方法,这些方法将像素的局部性纳入鲁棒性度量指标中,并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用,我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因,然而,在较大的数据集中,这种优势消失了。代码可在此 https URL 获得。
Dec, 2023
研究比较了针对图像分类模型的基线、概念和反事实解释技术发现,反事实解释技术使用户能更准确地识别某些属性,并强调了衡量用户对模型偏差性推理能力的重要性。
Apr, 2022
本文提出了一种基于中立值选择基线的解释方法,该基线的选择取决于模型的实际运用,从而验证该基线的有效性。
Jun, 2020
本研究旨在检验特征归因法在不同深度学习架构模型间的泛化能力,以及探索归一化的特征解释方法在提高机器学习应用的可解释性和信任度方面的潜力。
Jul, 2023
本文提出了一种基于放松的功能依赖概念的特征选择 / 归因的正式化方法,通过在合成数据集上计算基本真实的归因,评估了许多最先进的归因方法,并展示了即使在优化时,某些归因方法也无法验证所提出的属性并提供错误的解决方案。
Apr, 2021