基于双特征和示例的解释方法
本论文提出了一种使用解释模型同时针对多个目标类别进行本地解释的框架,该模型具有更高的解释性和更紧凑的解释,通过广泛的实验验证了该模型具有选择稳定和重要特征的能力。
Jul, 2022
本研究提出了一种新框架来生成互补的解释,其中由三个不同的神经网络来参数化需要解释和被解释的变量的联合分布,即预测器,语言解释器和示例选择器,结果表明该方法是有效的。
Dec, 2018
本研究介绍了一种新型的基于扰动的多类别解释框架 LIPEx(局部可解释的概率解释),证明 LIPEx 不仅可以局部复制广泛使用的复杂分类模型输出的概率分布,而且还可以提供关于每个被认为重要的特征如何影响每个可能类别的预测概率的见解。研究通过根据概率分布空间中的 Hellinger 距离执行的回归获得解释的矩阵。对文本和图像数据进行的消融测试表明,与其他基于显著性或特征重要性的 XAI 方法相比,LIPEx 指导下从数据中移除重要特征会对底层模型的预测产生更大的变化。研究还表明,与 LIME 相比,LIPEx 在可靠评估解释所需的扰动数量上具有更高的数据效率。
Oct, 2023
本文提出了基于绑架式解释的机器学习方法,为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数,例如解释长度,优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性,该方法通过内隐命中集和最大通用子集两种解法得出结果,并可以配置不同的扰动集来检测预测结果的偏见,提高 NLP 解释框架的效果。最后,文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估,并展示了该框架的有效性。
May, 2021
本研究介绍了一种基于替代建模的后续数据归因方法 DualView,它在计算效率和评估结果方面表现良好。通过使用适合的定量评估策略和相关的局部数据归因方法,我们发现 DualView 方法在需要较低计算资源的同时,表现不亚于其他方法。此外,该方法产生稀疏的解释,可以通过超参数进行调整。最后,我们展示了 DualView 可以将局部数据归因的解释与已有的局部特征归因方法兼容,并提供了在线的开源实现,以及与其他局部数据归因方法和此处报告的度量标准的实现,以便进行完全可复现性研究。
Feb, 2024
该研究提出了 SimplEx 方法,以提高人们对机器学习模型的透明度。该方法可以根据用户选择的一组自由样本来提供基于示例的解释,从而回答与预测相关的问题,并重构测试潜在表示作为语料库潜在表示的混合。
Oct, 2021
介绍了 CGX(Column Generation eXplainer),一种基于线性规划的分解方法,可以从深度神经网络的隐藏表示中提取规则,优化任意数量的目标,并满足准确复现、稳定性和复杂度降低等特点,提高了可解释性。
Apr, 2023
本文提出一类新的模型解释方法 - 基于删除的解释,并提出一个三个方面的框架来描述和统一 26 种已有的模型解释方法。通过这个分析,我们发展了一个统一的框架,帮助实践者更好地理解模型解释工具,并为未来的可解释性研究提供了坚实的理论基础。
Nov, 2020
这篇论文探讨了机器学习模型的可解释性和可解释性,特别是关于本地和全局可解释性以及特征重要性和相关性的方法,并提供了一个完整的 Python 软件包来允许未来的研究人员探索这些产品;根据对严重天气预测和亚冰点路面温度预测的 ML 模型开发的研究, 发现有关特征排名和特征效果的解释方法之间存在显着不一致,并提供建议来处理这些分歧;最后,建议在未来的研究中使用 tree interpreter 方法来探究特征效果。
Nov, 2022