可解释性作为统计推论
解释性是可信任机器学习的一个关键要求,因为通过学习和发布一些内在可解释的模型可以泄露有关底层训练数据的信息,而这可能直接与隐私冲突。本文提出了一个新的框架,用于处理其他形式的可解释模型和更普遍的知识,并证明在对可解释模型结构做出现实的假设的情况下,可以有效地计算重建的不确定性。最后,我们通过比较精确学习算法和启发式学习算法关联的理论信息泄漏,说明了我们方法的适用性,使用决策树和规则列表。我们的结果表明,对于给定的准确性水平,最优解释性模型通常更紧凑,泄露的关于训练数据的信息更少。
Aug, 2023
这篇论文提出一种名为模型抽取的方法,通过构建一个可解释程度更高的模型来近似黑箱模型,从而理解和调试机器学习模型在各种数据集上训练的结果,并在经典强化学习问题中学习控制策略。
Jun, 2017
机器学习中的可解释性问题已经成为一个重要的关注点,本文提出使用模型无关的方法解释机器学习预测,这种方法可以提供选择模型、解释和表示的灵活性,同时改善了调试、比较和用户接口等问题,同时回顾了最近引入的模型无关的解释方法 LIME 及其面临的主要挑战。
Jun, 2016
提出了一种基于最优化的规则,将线性模型分解为不断增加复杂性的一系列模型,从而为线性模型创建解释,并派生出线性模型的参数化互操作性指标族,研究了解释性和预测准确性之间的权衡。
Jul, 2019
本文提出了一种新型的可解释深度神经网络的解释,通过使用掩蔽权重,可以将隐藏特征分解成几个输入限制的子网络,并训练成专家混合的增强模型,为复杂的机器学习模型提供说明,提高其效率,并实现了对合理解释进行推荐任务。
Aug, 2020
本文综述了神经网络的解释工具和算法,提出了一种新的分类方法,介绍了解释结果的评估方法和信任度算法的应用,讨论了深度模型解释与鲁棒性和借鉴解释的联系,并介绍了一些开源库。
Mar, 2021
提出了自说明模型的三个特点 —— 显式性,忠诚度和稳定性,旨在落实模型可解释性并实现复杂模型的解释性,通过特定模型的正则化实现忠诚度和稳定性的要求,实验结果表明,该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。
Jun, 2018
本文探讨了监督机器学习模型的解释能力,发现解释能力的动机与方法存在多样性和不一致性,因此提出了透明度与后期解释等多种方法,并怀疑线性模型易于解释而深度神经网络不易解释这一流行观点。
Jun, 2016