通过数学优化在基于得分的分类中生成集体反事实解释
机器学习模型日益广泛应用,因此解释其预测和行为变得越来越重要。本文综述了针对多种不同机器学习模型高效计算对抗性解释的模型特定方法,并提出了文献中尚未考虑的模型方法。
Nov, 2019
该研究提出了一种多目标反事实解释方法(MOC),将反事实搜索转化为多目标优化问题,通过对特征空间的多样性维护,返回一组不同权衡的反事实,并在实际案例中展示了 MOC 的有用性和与现有方法的对比。
Apr, 2020
基于多标准分析的多阶段集成方法能够从 Pareto 前沿中选择一个用于解释机器学习模型预测的可行对策。实验结果表明,该方法能够生成具有吸引力的多种质量度量的可操作对策。
Mar, 2024
本文旨在在战略环境下寻找最优的政策和对策解释,包括 NP 难的问题,非降性和子模性,用标准贪心算法获得近似保证。最后,我们表明通过将拟阵约束加入问题的制定中,我们可以提高对策解释的最优集合的多样性,并激励整个人口谱上的个体自我改进。
Feb, 2020
本研究提出了一种新颖的 “群组反事实” 算法,用于以集体方式解释类似实例的群体,通过控制的用户研究发现,相较于传统方式,此算法可以在一定程度上提高人们对人工智能系统的理解,可能对反事实方法和可解释性人工智能产生重要影响。
Mar, 2023
本文提出了一种基于决定点过程的生成和评估多样性反事实解释的框架,旨在优化反事实行为的可行性和多样性,并提供了可比较的度量标准来评估反事实方法。通过实验,验证了该框架能生成多样性的反事实,并且能有效地近似本地决策边界。
May, 2019
为了解决机器学习模型的可解释性问题,本研究提出了一种基于梯度优化和概率模型逼近的反事实解释方法,可以适用于不可微模型如树模型,并且该方法得出的反事实案例要优于其他针对树模型的反事实方法。
Nov, 2019
提供关于机器学习算法如何工作和 / 或进行特定预测的解释是改善其可靠性、公平性和鲁棒性的主要工具之一。在解释类型中,反事实是最直观的一种,它是与给定点仅在预测目标和某些特征上不同的示例,它呈现了原始示例中需要改变的特征来翻转该示例的预测。然而,这种反事实可能具有与原始示例不同的许多不同特征,使得其解释困难。在本文中,我们提出明确为反事实生成添加一个基数约束,限制与原始示例不同的特征数量,从而提供更易解释和易理解的反事实。
Apr, 2024
本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧,并希望能启发对健壮性反事实解释的探索。
Jun, 2021