本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧,并希望能启发对健壮性反事实解释的探索。
Jun, 2021
本文提出了一种新的方法 ——C-CHVAE,该方法可以生成可实现的反事实解释,以更好地满足反事实解释的质量要求。
Oct, 2019
本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证,无需额外的训练验证模型。
May, 2022
生成完整且有意义的文本反事实示例的新算法以及交互式可视化工具,用于分析和解释 LLMs。
Apr, 2024
提供关于机器学习算法如何工作和 / 或进行特定预测的解释是改善其可靠性、公平性和鲁棒性的主要工具之一。在解释类型中,反事实是最直观的一种,它是与给定点仅在预测目标和某些特征上不同的示例,它呈现了原始示例中需要改变的特征来翻转该示例的预测。然而,这种反事实可能具有与原始示例不同的许多不同特征,使得其解释困难。在本文中,我们提出明确为反事实生成添加一个基数约束,限制与原始示例不同的特征数量,从而提供更易解释和易理解的反事实。
本文提出了一种名为 CROCO 的新框架,用于生成具有鲁棒性的反事实解释,并有效地管理反事实输入更改带来的挑战,针对表格数据进行评估,证明了该方法的有效性。
Apr, 2023
通过提出一个新的反向翻译的评估方法,我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析,并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。
May, 2023
本文综述分类了反事实解释的研究,包括如何评估和设计反事实解释算法,探讨了反事实解释在机器学习领域中的研究方向和发现的不足之处。
Oct, 2020
本文提出了一种基于决定点过程的生成和评估多样性反事实解释的框架,旨在优化反事实行为的可行性和多样性,并提供了可比较的度量标准来评估反事实方法。通过实验,验证了该框架能生成多样性的反事实,并且能有效地近似本地决策边界。
May, 2019
本研究旨在正式和实证研究了解反事实解释的鲁棒性,以及在不同模型和不同类型扰动下的鲁棒性,并提出合理的反事实解释来改进鲁棒性和个体平等。
Mar, 2021