如何欺骗你?通过误导性黑盒解释来操纵用户的信任
本文通过在金融、医疗保健、大学招生和美国司法系统等四个领域的实际数据中审计了不同保护子组的解释质量,发现不同子组的近似质量显着不同,而解释深度学习模型的近似质量差异存在着公平性挑战,需要进一步解决。
May, 2022
研究表明,在机器学习中,准确度比可解释性更重要,添加解释可能会损害用户信任,同时高度真实的解释不能欺骗用户的信任,用户的信任感与其实际表现不符。
Jul, 2019
研究了如何使用深度学习和现有工具来创建和检测欺骗性解释,发现欺骗性解释可以骗过人类,但可以使用机器学习方法检测,即使缺乏领域知识,也可以以无监督的方式推断解释的不一致性。
Jan, 2020
该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架,并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的,因为它基于明确且可解释的图像扰动。
Apr, 2017
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
透明方法和不透明方法是解释黑盒的两个主要方法家族。实证证据表明,不透明方法在应用中可能会增加复杂性,而没有显著的性能增益,从而引发了关于使用另一个黑盒解释黑盒的问题的讨论。
Apr, 2024
介绍了一种中间嵌入概念学习的机器学习模型,其预测性能可以和黑盒预测模型相媲美,但是这些模型学习到的概念表示却可能包含超越预定义概念所能描述的信息,进而导致预测解释存在误导性,研究探讨了信息泄漏的机理,并建议了有效的应对方法。
Jun, 2021
通过交互式机器学习,将对比解释应用于黑盒机器学习系统,个性化调整其条件语句并通过提问 “What if?” 的方式提取更多解释,从而提高系统的透明度。
Jan, 2020
研究了黑匣子解释问题,利用 LaundryML 算法演示如何以一定的公平指标系统地合理化黑匣子机器学习模型的不公平决策,可提供高效的规则列表,同时满足高度匹配和更少的不公平性。
Jan, 2019
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020