本文针对机器学习中可解释性的问题进行了研究,提出了一组度量用于评估不同的可解释性方法,进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中,通过对不同的基准任务进行验证,并展示如何使用这些度量指导实践者选择最合适的方法,进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。
Jul, 2020
通过几何深度学习的形式化方法,本文研究了神经网络的对称群不变性及其对解释性方法的影响,提出了对称性相关的鲁棒性指标和提高对称性相关解释的系统方法,并通过实验给出了 5 个可行的指南以产生稳健的解释。
Apr, 2023
本文介绍了解释深度神经网络的渐变解释性方法,讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用,并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。
Jul, 2021
本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击,结果表明,输入语句及其语义的微小改变可以在很大程度上扰乱解释方法,达到 86% 的成功率。
Jun, 2022
本文提出一种基于鲁棒性分析的特征解释新的评估标准,通过针对我们提出的评估标准进行优化,获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。
May, 2020
本文提供了关于现有归因方法敏感性的实证研究结果,发现许多方法对其常见超参数异常敏感,这不仅影响了研究结果的复制性,也会影响最终用户的信任度。同时,现在常见的准确性评估方法并不能完全反映出这种敏感性,并且在对抗像素扰动下训练的健壮分类器提供的解释比常规分类器更加鲁棒。
Mar, 2020
在可解释性人工智能领域,本文研究了基于图像分类器特征重要性的解释方法的稳定性、正确性和合理性之间的关系,并指出现有的评估指标并不总是一致的,进而提出了考虑被测模型的局部行为的新型评估指标。
Oct, 2023
评估可解释性模型的统一框架是该论文的重点,它介绍了各个研究群体对解释性评估的重叠和语义错位,并提出了解释的可行性和可理解性的评估标准,以及基于可解释神经网络的学习行为预测的案例。
May, 2024
该研究提出了一种新的用于评估解释可能性方法生成的解释质量的度量标准,并利用六种解释可能性方法在三个 NLP 任务上计算和展示了度量标准的结果。
May, 2022
评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性,展示如何利用流形假设和集成方法对稳健性进行深入分析。
Jun, 2024