如何欺骗你？通过误导性黑盒解释来操纵用户的信任

Nov, 2019

如何欺骗你？通过误导性黑盒解释来操纵用户的信任

"How do I fool you?": Manipulating User Trust via Misleading Black Box Explanations

Himabindu Lakkaraju, Osbert Bastani

TL;DR本文旨在探究黑匣子机器学习模型中可能导致误导性解释并如何通过这些解释操纵用户信任，通过用户研究和理论框架展示了这些解释对用户的误导性，并提出了一种新的理论框架来理解和生成这些解释。

Abstract

As machine learning black boxes are increasingly being deployed in critical domains such as healthcare and criminal justice, there has been a growing emphasis on developing techniques for explaining these

machine learning black boxes interpretable biases misleading explanations

发现论文，激发创造

解释性之路的通行需面对偏见：衡量解释的公平性

本文通过在金融、医疗保健、大学招生和美国司法系统等四个领域的实际数据中审计了不同保护子组的解释质量，发现不同子组的近似质量显着不同，而解释深度学习模型的近似质量差异存在着公平性挑战，需要进一步解决。

May, 2022

模型准确性和解释透明度如何影响用户信任

研究表明，在机器学习中，准确度比可解释性更重要，添加解释可能会损害用户信任，同时高度真实的解释不能欺骗用户的信任，用户的信任感与其实际表现不符。

Jul, 2019

欺诈性 AI 解释：创建和检测

研究了如何使用深度学习和现有工具来创建和检测欺骗性解释，发现欺骗性解释可以骗过人类，但可以使用机器学习方法检测，即使缺乏领域知识，也可以以无监督的方式推断解释的不一致性。

Jan, 2020

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

用另一个黑盒子解释一个黑盒子是否有意义？

透明方法和不透明方法是解释黑盒的两个主要方法家族。实证证据表明，不透明方法在应用中可能会增加复杂性，而没有显著的性能增益，从而引发了关于使用另一个黑盒解释黑盒的问题的讨论。

Apr, 2024

黑盒概念学习模型的优势和风险

介绍了一种中间嵌入概念学习的机器学习模型，其预测性能可以和黑盒预测模型相媲美，但是这些模型学习到的概念表示却可能包含超越预定义概念所能描述的信息，进而导致预测解释存在误导性，研究探讨了信息泄漏的机理，并建议了有效的应对方法。

Jun, 2021

一个解释并不能适用于所有情况：交互式解释对于机器学习透明度的承诺

通过交互式机器学习，将对比解释应用于黑盒机器学习系统，个性化调整其条件语句并通过提问 “What if？” 的方式提取更多解释，从而提高系统的透明度。

Jan, 2020

公正掩蔽：理性化的风险

研究了黑匣子解释问题，利用 LaundryML 算法演示如何以一定的公平指标系统地合理化黑匣子机器学习模型的不公平决策，可提供高效的规则列表，同时满足高度匹配和更少的不公平性。

Jan, 2019

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020