水印反事实解释

May, 2024

Watermarking Counterfactual Explanations

Hangzhi Guo, Amulya Yadav

TL;DR提出了一个模型不可知水印框架，用于探测未经授权的模型提取攻击，并保证所嵌入的水印不损害生成的对抗结果解释的质量。

Abstract

The field of explainable artificial intelligence (XAI) focuses on techniques for providing explanations to end-users about the decision-making processes that underlie modern-day machine learning (ML) models. Within the vast universe of XAI techniques, counterfactual (CF) explanations a

explainable artificial intelligence counterfactual explanations security concerns model extraction attacks watermarking framework

发现论文，激发创造

超越一刀切：将反事实解释适应用户目标

解释性人工智能 (XAI) 是一项关键研究领域，旨在增强人工智能系统的透明度和解释性。反事实解释 (CFEs) 通过探索某些因素不同的替代情景，为机器学习算法的决策过程提供有价值的洞察。本文主张细致理解 CFEs，了解用户目标和目标应用的多样化需求，以设计更有效且量身定制的解释，以满足用户的特定需求，从而提高与人工智能系统的协作。

Apr, 2024

基于知识蒸馏的模型提取攻击：使用私有对联解释

研究探讨了机器学习模型解释与攻击的关系，并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明，添加隐私保护会影响解释器的性能和生成的对抗性解释的质量，使攻击性能降低。

Apr, 2024

可解释人工智能与反事实路径

提出了一种基于条件置换生成反事实路径的新型可解释性人工智能（XAI）方法，可以在知识图谱中识别与模型预测最相关的特征或特征组合，提供比传统特征加权方法更直观和可解释的模型行为解释，并有助于发现和减轻模型中的偏差。

Jul, 2023

揭示反事实解释在就业能力的潜力

本研究提出反事实解释在复杂机器学习算法下的应用，以数据实例展示其在雇用相关问题中提高决策支持、遵守法律要求、引导受控变更和分析新颖洞见的作用。

May, 2023

基准测试可解释性人工智能的反事实算法：从白盒到黑盒

该研究通过在三种不同类型的机器学习模型上进行基准评估来调查机器学习模型对反事实解释生成的影响，发现不同的机器学习模型对反事实解释生成没有影响，强烈建议进行定性分析来确保反事实解释的稳健分析和潜在偏差的识别。

Mar, 2022

利用因果发现对黑盒机器学习模型进行反事实解释，并应用于信用评级

该研究提出了一种新的可解释人工智能框架，利用反事实概率和关于因果结构的先验信息，以实现通过因果发现方法和黑盒分类模型来估计因果图并估计解释得分，从而更准确地解释模型的内部机制。通过人工数据的数值实验和信贷评级的实际数据应用，证明了该方法在因果图未知的情况下的有效性。

Feb, 2024

因果解释的分歧：透明度如何具有欺骗性

本文针对可解释人工智能中的对策解释方法（Counterfactual explanations）中存在的异议问题（the disagreement problem）进行了大规模实证研究，发现不同算法生成的解释之间存在高度异议，从而呼吁更多关于算法决策透明度的讨论和实验研究。

Apr, 2023

可解释人工智能在数据驱动系统中的隐私影响

机器学习模型的不透明性威胁到其可解释性，可解释人工智能（XAI）技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战，同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。

Jun, 2024

在金融文本分类中为深度变压器生成合理的反事实解释

本文提出一种新方法来产生可信的反事实解释，探索金融科技领域语言模型对于敌对训练的规范化优势，实验结果表明，与现有的最先进技术和人类表现相比，该方法不仅提高了模型的准确性，而且根据人类试验，产生的反事实解释更加可信。

Oct, 2020

AI 系统的反事实解释是否会扭曲普通用户对世界因果直觉的理解？如果是，我们能纠正吗？

本文探讨了 AI 系统中基于反事实进行的解释在实际应用中所带来的影响以及其引发的因果信念变化，通过实验证明了提供 AI 系统预测的反事实解释会影响人们对于该预测所关联的特征是否具有因果性的判断，其结果表明指出 AI 系统只能捕捉到相关关系而非因果关系可以减轻其影响。

May, 2022