ACTER: RL 策略解释和诊断的多样和可行的反事实序列

Feb, 2024

ACTER: RL 策略解释和诊断的多样和可行的反事实序列

ACTER: Diverse and Actionable Counterfactual Sequences for Explaining and Diagnosing RL Policies

Jasmina Gajcin, Ivana Dusparic

TL;DR提供可操作建议以避免强化学习中的失败，该算法以最小变化和高确定性生成能够预防失败的相反事实序列，并在多样的情况下生成多种相反事实序列。

Abstract

Understanding how failure occurs and how it can be prevented in reinforcement learning (RL) is necessary to enable debugging, maintain user trust, and develop personalized policies. counterfactual reasoning has o

failure reinforcement learning counterfactual reasoning algorithm counterfactual sequences

发现论文，激发创造

RACCER：面向强化学习的可达到和确定的反事实解释

本文提出 RACCER，这是第一个针对 RL 行为生成对抗性解释的 RL 特定方法，我们使用 RL 特定的对抗性属性，并使用启发式树搜索算法来查找最合适的对抗性解释，并进行了用户研究以证明对抗性解释可以帮助用户更好地理解 RL 代理的行为。

Mar, 2023

GANterfactual-RL: 通过视觉反事实解释理解强化学习智能体的策略

本论文提出了一种新颖而简单的方法，将问题形式化为域转移问题，使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释，证明该方法在分析不同代理机器人的学习策略时表现最佳。

Feb, 2023

通过生成深度学习为强化学习智能体提供反事实状态解释

本文提出了一种基于生成式深度学习的新颖例子法方法，生成针对深度强化学习代理在视觉环境中操作（如 Atari）的反事实状态解释，探究这种解释的有效性，并对非专家参与者进行了测试比较。结果表明，与最近邻基线或根本没有解释相比，反事实状态解释对于帮助非专家参与者识别出有缺陷的强化学习代理具有足够的真实性。

Jan, 2021

考虑后果的顺序反事实生成

本文提出了一种基于遗传算法的多目标优化方法，用于解决顺序反事实生成问题。实验结果表明，相比现有的最优方法，该方法生成的解决方案成本更低，更高效，并为用户提供了多种选择。

Apr, 2021

强化学习中的反事实解释策略

通过引入反事实解释，COUNTERPOL 框架能够分析强化学习政策，并找到引导所需结果的政策最小改变，展示其在设计和开发反事实政策方面的实用性。

Jul, 2023

局部引导的顺序算法补救的反事实解释

通过算法补偿实施的反事实推演已成为使人工智能系统具有可解释性的强大工具，本文提出了一种名为 LocalFACE 的模型不可知技术，通过局部获取的信息在每个算法补偿步骤中构建可行且可操作的反事实解释。

Sep, 2023

使用深度强化学习学习序列反事实解释的公正策略

在可解释人工智能领域中，使用顺序反事实示例来改变经过训练的分类器的决策是常用的方法。本文针对现有方法的不足提出了使用分类器的输出概率来创建更具信息性的奖励以减轻潜在偏见等问题。

Nov, 2023

强化学习的反事实解释

通过重新定义反事实解释方法，结合强化学习的特点，探索在强化学习领域实现反事实解释的方法和研究方向。

Oct, 2022

通过生成式深度学习获得 Atari 游戏智能体的反事实状态

研究人员提出了一个新的概念 - 对抗状态来帮助人类更好地理解深度强化学习决策的逻辑，通过对生成对抗网络的改进，创建对抗状态并在大众中进行用户测试，结果表明这种方法有助于非机器学习专家更好地理解代理的决策过程。

Sep, 2019

使用策略蒸馏的深度强化学习模型反事实解释框架

该论文提出一种新颖的反事实解释框架，以解释黑盒 DRL 的决策，并在自动驾驶系统和 Atari Pong 游戏领域进行了多项实验。分析表明，所提出的框架为深层 DRL 的各种决策生成了可行且有意义的解释。

May, 2023