算法补救:从反事实解释到干预
通过算法补偿实施的反事实推演已成为使人工智能系统具有可解释性的强大工具,本文提出了一种名为 LocalFACE 的模型不可知技术,通过局部获取的信息在每个算法补偿步骤中构建可行且可操作的反事实解释。
Sep, 2023
机器学习模型日益广泛应用,因此解释其预测和行为变得越来越重要。本文综述了针对多种不同机器学习模型高效计算对抗性解释的模型特定方法,并提出了文献中尚未考虑的模型方法。
Nov, 2019
本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧,并希望能启发对健壮性反事实解释的探索。
Jun, 2021
在高风险情况下,通过对敌对示例和反事实解释的形式定义,我们介绍了非敌对算法性回应,并阐明了为什么在获得不具备敌对特性的反事实解释方面是至关重要的。我们进一步研究了目标函数中不同组件(例如用于计量距离的机器学习模型或成本函数)如何决定结果是否可以被视为敌对示例。我们对常见数据集进行的实验证明,这些设计选择通常比使用回应或攻击算法更关键,以决定回应是否具有非敌对特性。此外,我们展示了选择强大和准确的机器学习模型会导致实践中所期望的更少敌对性回应。
Mar, 2024
我们提出了一种基于机器学习的回溯算法,用于提供决策结果不理想的人可以采取的可操作的一系列改变,以改善他们的结果。我们的算法可适用于各个不同 iable 的基于机器学习的决策系统,并填补了关于公平性的现有文献的不足之处。
Jul, 2019
通过两种概率方法选取最优行动以在有限的因果知识下实现补救,以解决缺乏真实结构因果模型的限制,并在不完美的因果知识下提供比非概率基线更可靠的建议。
Jun, 2020
本文旨在在战略环境下寻找最优的政策和对策解释,包括 NP 难的问题,非降性和子模性,用标准贪心算法获得近似保证。最后,我们表明通过将拟阵约束加入问题的制定中,我们可以提高对策解释的最优集合的多样性,并激励整个人口谱上的个体自我改进。
Feb, 2020