利用替代模型方法进行 XAI 的黑客攻击

Jun, 2024

利用替代模型方法进行 XAI 的黑客攻击

Hacking a surrogate model approach to XAI

Alexander Wilhelm, Katharina A. Zweig

TL;DR最近几年，高度复杂人工智能系统的新应用数量大幅增长。算法决策系统 (ADMs) 是其中之一，其通过人工智能系统代替人类专家的决策过程。为确保此类系统的公平性和透明性，可解释人工智能 (XAI) 越来越重要。一种实现可解释性的变体是 surrogate 模型，即基于黑盒模型的输入 - 输出关系训练新的简化的机器学习模型的思想。简化的机器学习模型可以是决策树，被认为对人类直观可理解。然而，关于 surrogate 模型多好地逼近黑盒模型，我们知之甚少。本文的主要假设是一个良好的 surrogate 模型方法应能引起人类的注意力，先前我们假定一个 surrogate 决策树在其前几层将识别出这种歧视模式。然而，在本文中我们展示，即使被歧视的子群体在所有类别上与其他相同，也不会从黑盒 ADM 系统获得任何正面决策，相应的群体成员问题可以由系统操作者推迟到任意低的层级。我们进一步将此发现推广到准确定位歧视问题被问及的决策树层级，并展示在更现实的场景中，即只有某一部分处于劣势的群体才发生歧视，隐藏这种歧视行为更加可行。我们的方法可以轻易应用于其他 surrogate 模型。

Abstract

In recent years, the number of new applications for highly complex AI systems has risen significantly. algorithmic decision-making systems (ADMs) are one of such applications, where an AI system replaces the decision-making process of a human expert. As one approach to ensure fairness

algorithmic decision-making systems explainable ai surrogate models discrimination decision tree

发现论文，激发创造

可解释人工智能方法：一项调查

该研究演示了可解释人工智能的多种方法，并与信用违约预测等任务进行了比较，提出了定量解释性的有意义见解，为开发负责任或以人为中心的 AI 系统提供方向和未来研究方向，有助于在高风险应用中采用 AI。

Jan, 2021

以解释为基础的决策：关于可解释人工智能在辅助决策中的角色的人类中心评估

最近的实证研究调查了可解释人工智能对人工智能决策的影响，识别了挑战并提出未来的研究方向。

Dec, 2023

可解释人工智能在数据驱动系统中的隐私影响

机器学习模型的不透明性威胁到其可解释性，可解释人工智能（XAI）技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战，同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。

Jun, 2024

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

Greybox XAI: 一种神经符号学习框架，用于生成可解释的图像分类预测

通过形式化说明解释是什么，提出一些公理和定义来澄清可解释的人工智能的数学角度。最后，我们提出了一个 Greybox XAI 框架，该框架通过使用符号知识库将 DNN 和透明模型组成。我们从数据集中提取知识库，并使用它来训练透明模型（即逻辑回归）。然后，我们在 RGB 图像上训练编码器 - 解码器架构，以产生类似于透明模型使用的知识库的输出。一旦两个模型独立地训练好后，它们就在组成的形式上用于形成可以解释的预测模型。我们展示了这种新的架构在几个数据集中是准确的和可以解释的。

Sep, 2022

监督式机器学习可解释性调查

该综述论文提供了解释性监督机器学习的基本定义、原则和方法，并对过去和最近的解释性机器学习方法进行了分类和综述。通过解释性案例研究阐明了原则，并讨论了重要的未来方向。

Nov, 2020

可解释人工智能（XAI）综述：面向医疗 XAI

这篇论文概述了解释机器学习算法决策的不同方法，并将它们应用到医学研究中，以提高医生对这些算法的信任度。

Jul, 2019

网络安全可解释人工智能调查

通过对网络系统中的网络驱动安全威胁和问题进行系统分类，本文就网络安全中的可解释人工智能问题进行了回顾和研究，探讨了解释人工智能目前的挑战和局限性，并提出了未来的研究方向。

Mar, 2023

改进分类器性能的通用框架：基于可解释人工智能方法

该论文提出了一个使用可解释人工智能技术方法来自动提升预训练深度学习分类器性能的通用框架，避免了重新训练复杂模型所带来的计算开销，通过两种不同的学习策略，自动编码器和编码器 - 解码器，来实现这一架构。

Mar, 2024

关于 AI 解决方案的可解释性：跨领域调查

该研究是对人工智能模型解释的广泛调查，发现解释决策和原因的不同方法和原因的异质性导致了个体解释框架。

Oct, 2022