深度强化学习中的可解释性

Aug, 2020

Explainability in Deep Reinforcement Learning

Alexandre Heuillet, Fabien Couthouis, Natalia Díaz-Rodríguez

TL;DR本文评估了直接将可解释性与强化学习相关联的研究，分为两类：透明算法和事后解释能力，并从解释如何潜在地启示最新的强化学习进展的角度回顾了最突出的 XAI 作品，以便在日益严峻和复杂的现实问题的未来部署中有所启示。

Abstract

A large set of the explainable artificial intelligence (XAI) literature is emerging on feature relevance techniques to explain a deep neural network (DNN) output or explaining models that ingest image source data

explainable reinforcement learning explainable artificial intelligence deep neural network transparent algorithms post-hoc explainaility

发现论文，激发创造

可解释强化学习：调查

该论文对可解释强化学习方法进行了归类和评估，并发现大多数方法是通过模仿和简化复杂模型而非设计本质简单模型来实现目的的，缺乏人文思考和跨学科研究。因此需要进行一系列的跨学科努力才能将这些生成的解释改进为非专家用户易于理解的形式，以实现可解释人工智能的最终目标。

May, 2020

可解释性强化学习综述：概念、算法、挑战

本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉，比较了先前的方法，提出了一种补充，阐明了深度学习对智能机器人控制任务的适用性，强调机器学习与人类知识相互融合提升学习效率和性能的意义，并评估了未来 XRL 研究面临的挑战和机遇。

Nov, 2022

深度强化学习中的可解释性：现有方法和应用评述

本文综述了为解决深度强化学习模型缺乏可解释性问题而出现的可解释人工智能领域及其包括但不限于符号决策树和 Shapley 值等不同方法所适用的领域和模型。

Jul, 2022

强化学习中的可解释性：观点和立场

本文系统地概述了现有的可解释强化学习方法，提出了一个新的统一分类方法，并建立了三个支柱来减少解释生成和接收方之间的差距并实现解释的诚实和真实性。

Mar, 2022

利用解释性技术实现强化学习模型的保证

通过使用 ARLIN 工具包，本文介绍了一种基于可解释强化学习（XRL）的方法，通过提供人类可解释的输出，帮助识别培训过的深度强化学习（DRL）模型中的潜在漏洞和关键问题，以增加用户在实际应用中的信任和采用。

Nov, 2023

解释解释：机器学习的可解释性概述

有关解释人工智能的最佳实践和挑战的调查表明，现有的解释方法尤其是对于深度神经网络而言不足以提供算法的公正性、数据偏见和性能。

May, 2018

XRL-Bench：评估和对比可解释强化学习技术的基准

通过介绍 Explainable RL 领域中的 state-explaining techniques 及 XRL-Bench 和 TabularSHAP 方法，本研究为解释性 RL 技术的发展提供了实用工具和评估框架。

Feb, 2024

通过反向强化学习实现可解释的深度强化学习模型

本研究提出了一种新的框架，利用对抗性逆强化学习，可以为强化学习模型做出的决策提供全局解释，并通过总结模型的决策过程来捕捉直观的倾向。

Mar, 2022

可解释人工智能 (XAI) 中的机遇与挑战：一份调查

本文介绍了深度学习中可解释人工智能技术（XAI），提出了技术分类法并介绍了方法学、范畴和应用层次等主要原则，旨在建立可信、可解释和自说明的深度学习模型。此外，通过八种不同的可解释人工智能算法对图像数据进行了评估，讨论了这种方法的局限性，并提出了未来改进的潜在方向。

Jun, 2020

一项关于自适应系统可解释的在线强化学习的用户研究

在线强化学习和深度强化学习在自适应系统和可解释性 RL 技术方面的实际应用以及用户研究。

Jul, 2023