SAFE-RL：针对深度强化学习策略的显著性感知因果解释器

Apr, 2024

SAFE-RL：针对深度强化学习策略的显著性感知因果解释器

SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies

Amir Samadi, Konstantinos Koufos, Kurt Debattista, Mehrdad Dianati

TL;DR深度强化学习在复杂控制任务中显示出了极大的潜力，然而学习策略的不可解释性限制了其在安全关键应用（如自动驾驶系统）中的应用。为了解决这些问题，本文提出了一种使用显著性地图识别代理过去观测状态序列中影响力最大的输入像素，并将该地图馈送到深度生成模型中的方法，从而实现在显著区域进行约束修改的可信 Counterfactual 示例的生成。通过多个领域的实验结果表明，该方法能够在广泛的环境和深度强化学习代理中生成更加信息丰富和可信的 Counterfactual 示例。

Abstract

While deep reinforcement learning (DRL) has emerged as a promising solution for intricate control tasks, the lack of explainability of the learned policies impedes its uptake in safety-critical applications, such

deep reinforcement learning counterfactual explanations saliency map generative model safety-critical applications

发现论文，激发创造

SAFE：基于显著性感知的深度神经网络自动驾驶系统反事实解释

这篇论文提出了一种利用显著性地图生成更具信息量的 CF 解释的新方法，以解决当前深层生成 CF 模型中被选择特征导致的反直觉结果的问题。

Jul, 2023

使用策略蒸馏的深度强化学习模型反事实解释框架

该论文提出一种新颖的反事实解释框架，以解释黑盒 DRL 的决策，并在自动驾驶系统和 Atari Pong 游戏领域进行了多项实验。分析表明，所提出的框架为深层 DRL 的各种决策生成了可行且有意义的解释。

May, 2023

通过生成深度学习为强化学习智能体提供反事实状态解释

本文提出了一种基于生成式深度学习的新颖例子法方法，生成针对深度强化学习代理在视觉环境中操作（如 Atari）的反事实状态解释，探究这种解释的有效性，并对非专家参与者进行了测试比较。结果表明，与最近邻基线或根本没有解释相比，反事实状态解释对于帮助非专家参与者识别出有缺陷的强化学习代理具有足够的真实性。

Jan, 2021

探索性而非解释性：深度强化学习性能显著性图的反事实分析

该研究使用反事实推理来测试从显著性图中产生的假设并评估其与强化学习环境语义相对应的程度，以 Atari 游戏作为常见的深度强化学习基准来评估三种不同类型的显著性图，并发现显著性图最好视为一种探索性工具而非解释性工具。

Dec, 2019

使用深度强化学习学习序列反事实解释的公正策略

在可解释人工智能领域中，使用顺序反事实示例来改变经过训练的分类器的决策是常用的方法。本文针对现有方法的不足提出了使用分类器的输出概率来创建更具信息性的奖励以减轻潜在偏见等问题。

Nov, 2023

GANterfactual-RL: 通过视觉反事实解释理解强化学习智能体的策略

本论文提出了一种新颖而简单的方法，将问题形式化为域转移问题，使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释，证明该方法在分析不同代理机器人的学习策略时表现最佳。

Feb, 2023

强化学习中的反事实解释策略

通过引入反事实解释，COUNTERPOL 框架能够分析强化学习政策，并找到引导所需结果的政策最小改变，展示其在设计和开发反事实政策方面的实用性。

Jul, 2023

STEEX: 带有语义信息的反事实解释调节器

本文提出了一种新型的生成式反事实性解释框架，旨在生产可信度高、修改最小、保留结构的高质量图像。同时介绍了 “针对区域的反事实性解释” 概念和相应框架，通过指定图像的语义区域来指导反事实性产生，证明了该框架在高质量人像和复杂场景等数据集上的有效性。

Nov, 2021

一种可行的反事实探索框架：融合因果关系、稀疏性和密度

通过对属性的逻辑因果关系保护，使用黑箱模型作为分类器并利用变分自动编码器生成可行的对抗性示例，本研究在不同基准数据集上实验，成功生成可行且稀疏的对抗性示例，满足所有预定义的因果约束。

Apr, 2024

强化学习的反事实解释

通过重新定义反事实解释方法，结合强化学习的特点，探索在强化学习领域实现反事实解释的方法和研究方向。

Oct, 2022