对文本数据进行特征重要性和规则提取的可解释性比较

Jul, 2022

对文本数据进行特征重要性和规则提取的可解释性比较

Comparing Feature Importance and Rule Extraction for Interpretability on Text Data

Gianluigi Lopardo, Damien Garreau

TL;DR本文研究机器学习算法中普遍存在的可解释性方法，通过不同的解释方法应用到简单的模型中，发现不同之处并提出一种新的方法来比较不同解释间的差异。

Abstract

Complex machine learning algorithms are used more and more often in critical tasks involving text data, leading to the development of interpretability methods. Among local methods, two families have emerged: those computing →

machine learning algorithms interpretability methods importance scores logical rules explanations

发现论文，激发创造

传统机器学习模型解释方法比较第一部分：目前方法概述及其不一致性量化

这篇论文探讨了机器学习模型的可解释性和可解释性，特别是关于本地和全局可解释性以及特征重要性和相关性的方法，并提供了一个完整的 Python 软件包来允许未来的研究人员探索这些产品；根据对严重天气预测和亚冰点路面温度预测的 ML 模型开发的研究，发现有关特征排名和特征效果的解释方法之间存在显着不一致，并提供建议来处理这些分歧；最后，建议在未来的研究中使用 tree interpreter 方法来探究特征效果。

Nov, 2022

自动基于概念的解释

提出了概念解释的原则和求解算法 ACE，能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。

Feb, 2019

特征重要性的多种表现：比较文本分类中的内置和事后特征重要性

本研究对比了使用内置机制（如注意力值）和近似模型行为的事后方法（如 LIME）产生的分类器特征重要性，发现无论使用哪种方法，传统模型如 SVM 和 XGBoost 的重要特征更相似，而与深度学习模型不同；事后方法往往会比内置方法生成更相似的重要特征。重要的是，当两个模型在预测标签上达成一致时，重要的特征不一定更相似。

Oct, 2019

特征重要性的固有不一致性

本文提出一种新的特征重要性得分框架，通过将特征空间重新划分成可分离集合，从而统一了现有研究所存在的不一致性，实现了对机器学习算法的可解释性。

Jun, 2022

基于树模型和替代模型的公平特征重要性评分

我们提出了一种公平特征重要性评分，用于解释决策树等可解释的黑盒机器学习模型对公平性或偏见的贡献。通过模拟和真实示例，我们证明了该方法对树形集成和其他机器学习系统的树形替代物提供了有效的解释性。

Oct, 2023

非参数特征影响与重要性

该论文提出了特征重要性和特征影响的数学定义，并通过局部依赖曲线直接在数据上对其进行评估，证明其在预测任务中与现有特征选择技术具有竞争力。

Jun, 2020

模型提取实现可解释性

这篇论文提出一种名为模型抽取的方法，通过构建一个可解释程度更高的模型来近似黑箱模型，从而理解和调试机器学习模型在各种数据集上训练的结果，并在经典强化学习问题中学习控制策略。

Jun, 2017

神经文本分类器的鲁棒可解释性缺失

本研究通过两种随机化测试，评估预训练 Transformer 编码器的神经文本分类器的可解释性解释的鲁棒性，并发现出乎意料的偏差，从而对实践者从解释中获得的深入的见解提出疑问。

Jun, 2021

Fiper: 结合规则和特征重要性的基于视觉的解释

人工智能算法在多个高风险领域中已变得无处不在，但其内部逻辑可能对于人类而言难以理解。可解释的人工智能旨在设计工具和技术，以说明所谓的黑匣子算法的预测。人机交互界长期强调对可解释人工智能采用更加以用户为中心的方法的需求。本文提出了一种基于可视化的方法，以说明规则与特征重要性的配对。通过与算法的原始输出和文本表示进行比较，使用了包括 15 个参与者的用户研究，测试了我们的可视化方法在用户中的有效性。

Apr, 2024

通过自动化和模型无关的规则提取实现区域可解释性

在可解释人工智能（Explainable AI）中，我们提出了一种模型无关的方法，用于从特定的数据子组中提取规则。该方法通过自动生成数字特征规则，增强了机器学习模型的区域可解释性，并在高维空间中降低了计算成本。在各种数据集和模型的实验中，我们的方法表现出了很好的效果。

Jun, 2024