- 动态去偏:基于解释的人工监督机器学习系统决策
提出了一种新颖的在部署的机器学习系统中跟踪和纠正歧视的方法,它利用反事实解释来持续监测机器学习系统的预测,并标记歧视性结果,然后将与原始预测和反事实替代方案相关的后续解释呈现给人工审查者进行实时干预,从而实现公平和负责任的机器学习操作。
- 可解释人工智能在数据驱动系统中的隐私影响
机器学习模型的不透明性威胁到其可解释性,可解释人工智能(XAI)技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战,同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。
- KDD全球基于人工引导的分子性质对策解释的增强学习
RLHEX 是一种新颖的全局解释模型,结合了 VAE-based graph generator 和适应人类定义原则的适配器,可生成与领域专业知识相一致的反事实解释,用于分子属性预测。
- CoLa-DCE -- 概念引导的潜在扩散对抗性解释
通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释,提供更高的控制度和更好的可理解性,以及对模型错误的帮助。
- 水印反事实解释
提出了一个模型不可知水印框架,用于探测未经授权的模型提取攻击,并保证所嵌入的水印不损害生成的对抗结果解释的质量。
- GLANCE: 全球行动简述的反事实可解释性
提供全局反事实解释问题的简洁表述并建立了比较解决方案的原则标准,使用聚类和决策树作为关键组件的创新算法解决全局反事实问题,并通过与其他方法的综合实验评估验证了算法的能力。
- 无训练数据的多变量时间序列的反事实解释
本研究提出了 CFWoT,一种基于强化学习的反事实解释方法,用于生成反事实解释。CFWoT 适用于没有训练数据集的静态和多变量时间序列数据集,并可以处理连续和离散特征。CFWoT 生成的反事实解释所需进行的改变更少且更小,使其更具可操作性。
- CF-OPT:针对结构化预测的反事实解释
通过变分自动编码器在深度学习模型中释放潜在空间的潜力,提出了一种改进的损失函数用于解释非结构化学习架构中的反事实情况,并展示了该方法在近期文献的问题上的有效性。
- 统一视角:全球、群体和局部级别上的合理反事实解释
通过梯度优化,引入了一种新的整合方法,为可区分分类模型生成本地、小组和全局反事实解释,以解决全局反事实解释所面临的挑战,并增强了可行性和可信度,从而提高了 AI 模型的可解释性和负责任性。
- CFGs: 基于目标导向 ASP 方法的因果约束的反事实解释
自动决策的机器学习模型在贷款批准、预审保释批准和雇佣等重要领域中越来越常见。然而,大多数这些模型都是黑盒子,即无法透露如何做出预测决策的过程。因此,有必要提供解释来满足透明度需求,并使人们了解为何做出某个决策。我们的研究侧重于生成反事实解释 - 线性优化的反事实解释
探究了对复杂 AI 系统内部工作方式的理解中产生的反事实解释(CE)概念,并将 CE 的思想转化为线性优化,提出、激发、并分析了三种不同类型的 CE:强 CE、弱 CE 和相对 CE。通过检测和利用后一种情况下产生的优化问题的隐藏凸结构,证 - 球重叠数量模型不可知反事实 (ONB-MACF):基于数据形态学的诚信人工智能反事实生成方法
通过分析数据形态策略在生成反事实解释中的价值,本研究引入了基于数据形态的可解释性策略 ——ONB-MACF 方法,并在多样化表格数据集上的多个质量指标中证明其优于现有最先进的反事实生成方法,支持了数据形态策略在构建可信人工智能方面的潜力。
- 利用反事实解释进行模型重建:缓解决策边界变动
通过利用虚拟的解释接近决策边界的特点,我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略,该策略训练一个使用独特损失函数的代理模型,该损失函数将虚拟解释与普通实例区分对待。我们还 - 抽象论证中的对立假设和半事实解释:形式基础、复杂性与计算
该论文探讨了可解释人工智能和形式论证在抽象论证框架中的反事实和半事实推理,研究了其计算复杂性,并提供了通过 ASP 求解器的计算策略。
- 基于深度学习的交通预测的对立解释
通过反事实解释方法增强可解释性和可用性,揭示深度学习模型学习的交通模式,提高交通预测模型的透明性和可理解性。
- SAFE-RL:针对深度强化学习策略的显著性感知因果解释器
深度强化学习在复杂控制任务中显示出了极大的潜力,然而学习策略的不可解释性限制了其在安全关键应用(如自动驾驶系统)中的应用。为了解决这些问题,本文提出了一种使用显著性地图识别代理过去观测状态序列中影响力最大的输入像素,并将该地图馈送到深度生成 - 在大规模状态空间中学习可行的反事实解释
我们提供了一个实验证明的深度网络学习过程,可以在此任务上取得强大的性能表现。我们考虑了几种问题形式,包括在未明确提供 “能力” 和行动影响的情况下的公式,因此存在信息挑战和计算挑战。我们的问题也可以看作是在一系列大型但确定性的马尔可夫决策过 - 用另一个黑盒子解释一个黑盒子是否有意义?
透明方法和不透明方法是解释黑盒的两个主要方法家族。实证证据表明,不透明方法在应用中可能会增加复杂性,而没有显著的性能增益,从而引发了关于使用另一个黑盒解释黑盒的问题的讨论。
- 鲁棒的反事实解释的间隔抽象
为了解决因模型变动导致已有方法无效的问题,我们提出了一种用于参数化机器学习模型的新颖区间抽象技术,能够获得可靠的对抗模型变动的证明,进而提供具备可证明健壮性的反事实解释。通过基于混合整数线性规划的验证程序,我们进一步提出了两种算法,生成具备 - 基于模型的针对表数据的考虑特征空间属性的反事实解释
该研究提出了一种使用标准化流的高效反事实解释方法,该方法捕捉复杂数据分布,学习具有保持接近性的有意义的潜在空间,并改进预测,特别在处理分类变量时表现出色。