水印反事实解释
解释性人工智能 (XAI) 是一项关键研究领域,旨在增强人工智能系统的透明度和解释性。反事实解释 (CFEs) 通过探索某些因素不同的替代情景,为机器学习算法的决策过程提供有价值的洞察。本文主张细致理解 CFEs,了解用户目标和目标应用的多样化需求,以设计更有效且量身定制的解释,以满足用户的特定需求,从而提高与人工智能系统的协作。
Apr, 2024
研究探讨了机器学习模型解释与攻击的关系,并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明,添加隐私保护会影响解释器的性能和生成的对抗性解释的质量,使攻击性能降低。
Apr, 2024
提出了一种基于条件置换生成反事实路径的新型可解释性人工智能(XAI)方法,可以在知识图谱中识别与模型预测最相关的特征或特征组合,提供比传统特征加权方法更直观和可解释的模型行为解释,并有助于发现和减轻模型中的偏差。
Jul, 2023
该研究通过在三种不同类型的机器学习模型上进行基准评估来调查机器学习模型对反事实解释生成的影响,发现不同的机器学习模型对反事实解释生成没有影响,强烈建议进行定性分析来确保反事实解释的稳健分析和潜在偏差的识别。
Mar, 2022
该研究提出了一种新的可解释人工智能框架,利用反事实概率和关于因果结构的先验信息,以实现通过因果发现方法和黑盒分类模型来估计因果图并估计解释得分,从而更准确地解释模型的内部机制。通过人工数据的数值实验和信贷评级的实际数据应用,证明了该方法在因果图未知的情况下的有效性。
Feb, 2024
本文针对可解释人工智能中的对策解释方法(Counterfactual explanations)中存在的异议问题(the disagreement problem)进行了大规模实证研究,发现不同算法生成的解释之间存在高度异议,从而呼吁更多关于算法决策透明度的讨论和实验研究。
Apr, 2023
机器学习模型的不透明性威胁到其可解释性,可解释人工智能(XAI)技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战,同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。
Jun, 2024
本文提出一种新方法来产生可信的反事实解释,探索金融科技领域语言模型对于敌对训练的规范化优势,实验结果表明,与现有的最先进技术和人类表现相比,该方法不仅提高了模型的准确性,而且根据人类试验,产生的反事实解释更加可信。
Oct, 2020
本文探讨了 AI 系统中基于反事实进行的解释在实际应用中所带来的影响以及其引发的因果信念变化,通过实验证明了提供 AI 系统预测的反事实解释会影响人们对于该预测所关联的特征是否具有因果性的判断,其结果表明指出 AI 系统只能捕捉到相关关系而非因果关系可以减轻其影响。
May, 2022