探索面向以人为中心的人工智能的对抗性调整损失

Oct, 2023

探索面向以人为中心的人工智能的对抗性调整损失

Exploring Counterfactual Alignment Loss towards Human-centered AI

Mingzhou Liu, Xinwei Sun, Ching-Wen Lee, Yu Qiao, Yizhou Wang

TL;DR基于反事实生成的人类中心框架实现对深度神经网络的解释引导学习，并显示对人体的准确对齐，从而在肺癌诊断数据集上展示出的有效性。

Abstract

deep neural networks have demonstrated impressive accuracy in supervised learning tasks. However, their lack of transparency makes it hard for humans to trust their results, especially in safe-critic domains such as healthcare. To address this issue, recent →

deep neural networks explanation-guided learning counterfactual generation causal attribution lung cancer diagnosis

发现论文，激发创造

使用反事实推论的因果视角评估和缓解图像分类器中的偏差

该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法，生成能满足图像属性之间因果关系约束的反事实例，用于解释和评估神经网络模型的偏差，并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。

Sep, 2020

使用生成模型的同胚反事实

本文提出了一种简单但有效的方法来生成可解释神经网络分类决策的反事实案例，并探索了利用生成模型构建坐标系统的方法。文章分析了生成过程并利用定量和定性措施验证了生成的反事实案例的质量。

Jun, 2022

针对表格数据的学习模型无关反事实解释

本文提出了一种新的方法 ——C-CHVAE，该方法可以生成可实现的反事实解释，以更好地满足反事实解释的质量要求。

Oct, 2019

利用对抗样本进行偏见缓解和准确性增强

利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见，通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练，通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法，我们的方法实现了改进的偏见减轻和准确性。

Apr, 2024

使用多目标优化探索反事实解释中的可信度、变化强度和对抗能力之间的权衡

使用多目标优化模型，通过生成逆因模型生成可信的对抗实例，以提高深度学习模型的透明度，检测偏见和数据不当的形式。

May, 2022

机器学习分类器反事实解释中的因果约束保持

通过使用结构性因果模型，生成可行的对抗样本对于解释人工智能模型在医疗和金融等关键领域的决策是至关重要的。本论文提出了一种生成适用于实际应用中的可行对抗样本的方法，并且通过实验证明了其效果。

Dec, 2019

通过反事实分析进行人类轨迹预测

探究对策性分析在人类轨迹预测中的应用，并构建因果图分析历史轨迹与未来轨迹以及环境交互之间的关系，并对轨迹进行反事实干预以减轻环境偏差带来的负面影响，从而取得了公共行人轨迹预测基准测试的最佳结果。

Jul, 2021

利用情境反事实推理进行信念校准

通过用多目标优化来校准背景驱动的反事实推理，我们提出了 “信仰校准周期” 框架，以更全面地校准信仰多样性。

Jul, 2023

半监督反事实解释

通过引入自编码器重建损失，将分类器输出结果与自编码器的潜空间相连接，从而提高干预解释搜索过程的速度和解释干预结果的可解释性，尤其在自编码器以半监督方式训练的情况下进一步提高了其解释性。在多个数据集上的实验验证了该方法的有效性。

Mar, 2023

利用生成潜空间中的对比可反事实来解释图像分类器

在不需要重新训练或调整的情况下，使用预训练的生成模型，介绍了生成因果关系和可解释的反事实解释方法，以提供对黑匣子算法的透明性，并获得对面部属性分类器的对比和因果支持和必要分数，从而展示不同属性如何影响分类器输出。

Jun, 2022