可解释人工智能中的对抗攻击和防御：一项调查

IJCAIJun, 2023

可解释人工智能中的对抗攻击和防御：一项调查

Adversarial Attacks and Defenses in Explainable Artificial Intelligence: A Survey

Hubert Baniecki, Przemyslaw Biecek

TL;DR该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Abstract

explainable artificial intelligence (XAI) methods are portrayed as a remedy for debugging and trusting statistical and deep learning models, as well as interpreting their predictions. However, recent advances in adversarial machine learning highlight the limitations and vulnerabilities

explainable artificial intelligence adversarial attacks interpretation methods fairness metrics advxai

发现论文，激发创造

网络安全可解释人工智能调查

通过对网络系统中的网络驱动安全威胁和问题进行系统分类，本文就网络安全中的可解释人工智能问题进行了回顾和研究，探讨了解释人工智能目前的挑战和局限性，并提出了未来的研究方向。

Mar, 2023

可解释人工智能 (XAI) 中的机遇与挑战：一份调查

本文介绍了深度学习中可解释人工智能技术（XAI），提出了技术分类法并介绍了方法学、范畴和应用层次等主要原则，旨在建立可信、可解释和自说明的深度学习模型。此外，通过八种不同的可解释人工智能算法对图像数据进行了评估，讨论了这种方法的局限性，并提出了未来改进的潜在方向。

Jun, 2020

面向网络安全的可解释人工智能：现状、挑战、未解问题和未来方向

本文综述了可解释人工智能在网络安全领域中的应用，以及传统人工智能技术的挑战和在不同行业和应用中 XAI 的实现。

Jun, 2022

可解释人工智能方法：一项调查

该研究演示了可解释人工智能的多种方法，并与信用违约预测等任务进行了比较，提出了定量解释性的有意义见解，为开发负责任或以人为中心的 AI 系统提供方向和未来研究方向，有助于在高风险应用中采用 AI。

Jan, 2021

解释解释：机器学习的可解释性概述

有关解释人工智能的最佳实践和挑战的调查表明，现有的解释方法尤其是对于深度神经网络而言不足以提供算法的公正性、数据偏见和性能。

May, 2018

可解释人工智能在数据驱动系统中的隐私影响

机器学习模型的不透明性威胁到其可解释性，可解释人工智能（XAI）技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战，同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。

Jun, 2024

论述型可解释人工智能：一项调查

本文综述了利用计算论证方法建立的可解释 AI 方法，重点关注其不同类型的解释，使用的不同模型，不同交互方式和不同的论证框架。此外，我们还规划了未来的发展方向。

May, 2021

可解释化人工智能并未提供最终用户所要求的解释

阐释可解释的人工智能（XAI）技术应用于复杂模型的机器学习系统中，以增强其透明度与验证，从而取得用户的信任。然而，XAI 在部署上存在局限性，因此透明度和严格验证更适合在获取人工智能系统信任时使用。

Jan, 2023

可解释人工智能：系统综述

这篇论文从四个主要聚类方向：综述文章、理论和概念、方法及其评估，总结了可解释人工智能领域的最新技术水平并提出了未来研究方向。

May, 2020

基于 XAI 的对抗攻击检测深伪检测器

使用 XAI 作为一种新方法，通过生成可解释性地图来识别对深度伪造检测器的对抗攻击，进而开发出一种具有防御性的深度伪造检测器。

Mar, 2024