May, 2021
基于状态转移模型的基于特征的可解释强化学习
Feature-Based Interpretable Reinforcement Learning based on State-Transition Models
Omid Davoodi, Majid Komeili
TL;DR提出了一种基于状态转移模型的强化学习局部可解释风险的方法,并通过实验证明了其有效性。
Abstract
Growing concerns regarding the operational usage of ai models in the
real-world has caused a surge of interest in explaining ai models' decisions to
humans. →
发现论文,激发创造
基于预期后果的强化学习对比解释
本文提出了一种方法,使强化学习代理能够解释其行为,以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述,并使用一种可生成解释的格式,进行了计算,结果表明人类用户倾向于关注政策而非单个操作。
Jul, 2018
强化学习的经验性解释
通过 Experiential Explanations 生成局部反事实解释来帮助解释强化学习代理的决策,利用影响预测模型来恢复失去的关于策略如何反映环境的情境信息,并在人类评估研究中实现了更高的正确预测率和更高的解释实用性。
Oct, 2022
通过因果世界模型实现可解释的强化学习
本文针对强化学习中行为的长期影响,提出了一种基于因果世界模型的可解释强化学习框架。该模型能够捕捉行为的影响,通过因果链解释行为的长期效应,从而提高模型的可解释性,同时保持了准确性,使其适用于基于模型的学习。实验结果表明,因果模型可以作为解释性和学习之间的桥梁。
May, 2023
为可解释强化学习进行因果状态精炼
本文介绍了一种扩展奖励分解方法的因果学习框架,通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性:因果充分性、稀疏性和正交性,并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程,从而为行动选择提供更有意义和有洞察力的解释。
Dec, 2023
使用轨迹解释强化学习决策
本研究提出了一种基于训练中遇到的轨迹来解释训练好的 RL 代理决策的方法,并通过在离线环境中进行网格世界、视频游戏和连续控制等不同领域的实验,展示了这种方法在可解释性和可扩展性方面的有效性。
May, 2023
在分层强化学习场景中解释代理的决策制定
本文提出利用基于记忆的可解释强化学习方法解决分层任务的复杂性,并计算成功概率用于解释代理的行为。结果表明,在高层任务中使用记忆算法可以计算出代理的成功概率并用作指导其行为的基础。
Dec, 2022