模型提取实现可解释性

Jun, 2017

Interpretability via Model Extraction

Osbert Bastani, Carolyn Kim, Hamsa Bastani

TL;DR这篇论文提出一种名为模型抽取的方法，通过构建一个可解释程度更高的模型来近似黑箱模型，从而理解和调试机器学习模型在各种数据集上训练的结果，并在经典强化学习问题中学习控制策略。

Abstract

The ability to interpret machine learning models has become increasingly important now that machine learning is used to inform consequential decisions. We propose an approach called →

machine learning model interpretation blackbox models model extraction statistical properties

发现论文，激发创造

通过模型提取方法解释黑匣子模型

为了解释黑盒模型，本文提出使用决策树对其进行全局解释，并采用新的决策树提取算法避免过拟合，评估表明该方法正确率更高且可解释性更强。

May, 2017

机器学习的模型无关可解释性

机器学习中的可解释性问题已经成为一个重要的关注点，本文提出使用模型无关的方法解释机器学习预测，这种方法可以提供选择模型、解释和表示的灵活性，同时改善了调试、比较和用户接口等问题，同时回顾了最近引入的模型无关的解释方法 LIME 及其面临的主要挑战。

Jun, 2016

操纵与测量模型可解释性

在高风险领域中，机器学习模型已经被广泛用于辅助决策，而开发可解释的模型的兴趣逐渐增加。然而，是否这些模型能实现预期的效果，我们缺乏实验研究来证明。本研究开展了一系列预先注册的实验，展示了具有不同要素的模型，以调查它们的可解释性。结果表明，模型越透明、特征越少，参与者越能成功地模拟模型的预测，但是参与者并没有更加倾向于紧密关注其预测，而拥有透明的模型却使参与者因信息过载难以检测和修正模型的重大错误。这些结果强调了开发可解释模型时实验测试的重要性。

Feb, 2018

可解释机器学习技术

本文综述了提高可解释机器学习模型的技术，并讨论了未来研究的关键问题，如设计用户友好的解释和开发全面的评估指标，以进一步推动可解释机器学习的发展。

Jul, 2018

使用机器学习设计可解释决策支持系统是什么？

本文提出增强学习可用于学习不同用户可解释的模型，由此建立他们对机器学习模型的信任。通过与医生交互，基于神经网络模型，设计了一个基于强化学习的临床决策支持系统，结果表明，机器学习专家无法准确预测哪个系统输出将最大化临床医生对底层神经网络模型的信心，这些结果对将来机器学习可解释性研究以及机器学习在医学中的应用都具有广泛的意义。

Nov, 2018

可解释性与解释性：机器学习动物园小巡回

本次综述研究了设计可解释性机器学习模型的问题，分别阐述了可解释性和说明性的概念，并以深度学习模型为例，展示了这两个不同研究方向的最新进展。

Dec, 2020

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

可解释性作为统计推论

通过统计推断方法构建了一种概率模型，通过学习模型参数和使用神经网络选择器来实现解释性预测，并利用新数据集进行了实验验证，证明了使用多重插补提供了更合理的解释。

Dec, 2022

随机森林模型解释的调查与分类

随机森林模型的解释性是机器学习领域一个日益受关注的研究课题。本文通过对现有方法的全面回顾，通过分类分析提供一种分类方式，以指导用户根据所需可解释性方面选择最合适的工具来解释随机森林模型。

Jul, 2024

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019