正则化黑盒模型以提高可解释性
本文提出了一种新的方法,即在训练时直接对黑盒模型进行可解释性正则化,以改善解释效果,提高模型的可解释性,并保持一定的准确性。
May, 2019
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020
提出了自说明模型的三个特点 —— 显式性,忠诚度和稳定性,旨在落实模型可解释性并实现复杂模型的解释性,通过特定模型的正则化实现忠诚度和稳定性的要求,实验结果表明,该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。
Jun, 2018
本文通过在金融、医疗保健、大学招生和美国司法系统等四个领域的实际数据中审计了不同保护子组的解释质量,发现不同子组的近似质量显着不同,而解释深度学习模型的近似质量差异存在着公平性挑战,需要进一步解决。
May, 2022
通过优化深度神经网络的预测性能,我们提出了插入与删除度量感知的基于解释的优化方法(ID-ExpO),使得流行的后置解释器能够产生更忠实且易于理解的解释,同时保持高的预测准确性。
Oct, 2023
提出了 BETA 框架,通过透明的逼近来解释任何黑盒分类器的行为,允许用户交互式地探索用户感兴趣的不同子空间中黑盒模型的行为。实验评估表明,与现有基线相比,该方法可以生成高度紧凑,易于理解,但准确的各种预测模型的逼近。
Jul, 2017
提出了一种基于最优化的规则,将线性模型分解为不断增加复杂性的一系列模型,从而为线性模型创建解释,并派生出线性模型的参数化互操作性指标族,研究了解释性和预测准确性之间的权衡。
Jul, 2019
本文提出了基于贝叶斯框架的黑盒模型解释方法,能够生成可靠的局部解释和其关联的不确定性,并且具有稳定性和高度一致性,可以快速地解决几个重要问题。通过实证研究,证明了该方法的有效性,并提高了解释的可靠性。
Aug, 2020
这篇论文提出一种名为模型抽取的方法,通过构建一个可解释程度更高的模型来近似黑箱模型,从而理解和调试机器学习模型在各种数据集上训练的结果,并在经典强化学习问题中学习控制策略。
Jun, 2017