本文提出了一种名为 CROCO 的新框架,用于生成具有鲁棒性的反事实解释,并有效地管理反事实输入更改带来的挑战,针对表格数据进行评估,证明了该方法的有效性。
Apr, 2023
通过报告多个反事实,可以提供一些有意义的鲁棒性保证,这篇论文提出了一种近似算法来选择最相关的解释,并在实验中证明了其在生成鲁棒性解释方面的改进。
Dec, 2023
本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧,并希望能启发对健壮性反事实解释的探索。
Jun, 2021
该研究提出了一种模型不可知的方法,以计算相对复杂度在不同保护组之间没有显著差异的因果关系解释。
Nov, 2022
通过提出一种基于随机学习的框架和特征选择模块来平衡反事实解释的权衡,本研究在生成可行的反事实解释方面展现了其有效性,并表明其比基线更加多样化和高效。
Sep, 2022
本文针对可解释人工智能中的对策解释方法(Counterfactual explanations)中存在的异议问题(the disagreement problem)进行了大规模实证研究,发现不同算法生成的解释之间存在高度异议,从而呼吁更多关于算法决策透明度的讨论和实验研究。
通过重新定义反事实解释方法,结合强化学习的特点,探索在强化学习领域实现反事实解释的方法和研究方向。
Oct, 2022
该研究提出了一种基于冲突检测和最大松弛的迭代方法,用于在交互式约束系统中计算对立解释,从而帮助用户理解可以应用于其现有约束的更改以使其满足约束条件。
Apr, 2022
本文介绍了一个通用工具 CERTIFAI,可以应用于任何黑盒模型和任何类型的输入数据,通过生产接近输入但改变模型预测的 counterfactuals,探讨机器学习模型的鲁棒性、可解释性、透明性和公平性,并介绍了第一个黑盒模型鲁棒性分数 CERScore。
May, 2019
本文综述分类了反事实解释的研究,包括如何评估和设计反事实解释算法,探讨了反事实解释在机器学习领域中的研究方向和发现的不足之处。
Oct, 2020