通过交互重建评估生成模型的可解释性

Feb, 2021

通过交互重建评估生成模型的可解释性

Evaluating the Interpretability of Generative Models by Interactive Reconstruction

Andrew Slavin Ross, Nina Chen, Elisa Zhao Hang, Elena L. Glassman, Finale Doshi-Velez

TL;DR论文介绍了一种任务，用于量化生成模型的人类可解释性，该任务通过与用户交互修改表示来重构目标实例，在合成数据集上，我们发现此任务的表现比基线方法更可靠地区分纠缠和解缠模型，在真实数据集上，它区分了广泛认为但从未显示出产生更可解释模型的表示学习方法。

Abstract

For machine learning models to be most useful in numerous sociotechnical systems, many have argued that they must be human-interpretable. However, despite increasing interest in interpretability, there remains no

machine learning interpretability representation learning disentanglement generative models

发现论文，激发创造

量化机器学习系统的可解释性和可信度

本文提出了一种量化解释性方法质量的量化度量，并在众包实验中通过信息传输速率得到了实证证据，从而说明解释性方法的价值。同时，还提出了一种信任度量，以检测人类决策是否过度偏向机器学习预测。

Jan, 2019

可解释的模型用于理解沉浸式模拟

本文介绍了比较评估高维时间序列数据模型可解释性的方法，使用了常用的教育和医疗培训模拟中的日志数据，设计了两种解释性测试，评估模型输出与人们对模拟发生的期望或直觉的一致程度，发现完全贝叶斯方法在统计和人类可解释性测试的性能方面表现良好，是完全自动化模型选择的一个良好的选择。

Sep, 2019

操纵与测量模型可解释性

在高风险领域中，机器学习模型已经被广泛用于辅助决策，而开发可解释的模型的兴趣逐渐增加。然而，是否这些模型能实现预期的效果，我们缺乏实验研究来证明。本研究开展了一系列预先注册的实验，展示了具有不同要素的模型，以调查它们的可解释性。结果表明，模型越透明、特征越少，参与者越能成功地模拟模型的预测，但是参与者并没有更加倾向于紧密关注其预测，而拥有透明的模型却使参与者因信息过载难以检测和修正模型的重大错误。这些结果强调了开发可解释模型时实验测试的重要性。

Feb, 2018

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

模型可解释性的人类评估的挑战与机遇

本文提出了 “描述性解释” 和 “说服性解释” 的区别，讨论了功能解释与认知功能和用户偏好可能相关的推理，并提出了两个研究方向来消除认知功能和解释模型之间的歧义，保持准确性和可解释性之间的权衡控制。

Nov, 2017

可解释模型的概率式数据集重建

解释性是可信任机器学习的一个关键要求，因为通过学习和发布一些内在可解释的模型可以泄露有关底层训练数据的信息，而这可能直接与隐私冲突。本文提出了一个新的框架，用于处理其他形式的可解释模型和更普遍的知识，并证明在对可解释模型结构做出现实的假设的情况下，可以有效地计算重建的不确定性。最后，我们通过比较精确学习算法和启发式学习算法关联的理论信息泄漏，说明了我们方法的适用性，使用决策树和规则列表。我们的结果表明，对于给定的准确性水平，最优解释性模型通常更紧凑，泄露的关于训练数据的信息更少。

Aug, 2023

深度学习的可视化可解释性调查

本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展，并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。

Feb, 2018

可解释机器学习的严格科学探索

该研究论文旨在对可解释的机器学习进行定义和分类，并提出了一种更严谨的可解释机器学习科学评估方法的问题。

Feb, 2017

学习分离表征的理论和评价度量

该研究提出了一种理论上的度量方法来评估机器学习中所谓的 disentangled representations 的质量，这些方法可以让不同的机器学习模型公平地进行比较。

Aug, 2019

解释性在旁观者的思维中：一种人类可解释表达学习的因果框架

通过数学框架提出了一种获取可解释表示的方法，旨在建立人与算法方面之间的理解性桥梁，并为人类可解释性表示的新研究奠定基础。

Sep, 2023