将政策摘要与奖励分解相结合，解释强化学习代理

Oct, 2022

将政策摘要与奖励分解相结合，解释强化学习代理

Integrating Policy Summaries with Reward Decomposition for Explaining Reinforcement Learning Agents

Yael Septon, Tobias Huber, Elisabeth André, Ofra Amir

TL;DR本研究探讨将局部和全局解释方法相结合，通过激励分解和 HIGHLIGHTS 两种解释方式，帮助用户理解强化学习算法在决策制定时行为的策略，并通过两个用户研究证明两种方法的显著优势。

Abstract

Explaining the behavior of reinforcement learning agents operating in sequential decision-making settings is challenging, as their behavior is affected by a dynamic environment and delayed rewards. Methods that help users understand the behavior of such agents can roughly be divided in

reinforcement learning local explanations global explanations reward decomposition highlights

发现论文，激发创造

代理行为的局部和全局解释：将策略概要与显著性图结合

本研究结合全局与局部解释方法，通过用户研究评估其共同和单独的贡献，其中将模拟代理程序中的重要状态转换提取为策略概述，并为用户提供注重的信息，结果表明，如果概要包括重要状态的话，人们理解代理程序的能力显著提高。尽管加入显著性地图在大多数情况下并没有显著提高性能，但确实有一些证据表明显著性地图可以帮助用户更好地理解代理程序在决策过程中依赖的信息，为未来的工作提供了建议。

May, 2020

高水平机器人解释的奖励分解探究

本文提出利用抽象动作和奖励分解技术的可解释学习框架，使得机器人动作的解释更易于人类理解，并通过两个场景的定量和定性分析，展示了该框架的有效性。

Apr, 2023

多智能体强化学习的策略解释

本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段：关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中，表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。

Apr, 2022

让凡人理解强化学习：一项经验研究

本研究通过用户研究，探究关于解释对非专家理解强化学习代理的影响，研究了视觉化 saliency 和最近的解释类型奖励分解条，并设计了实验以比较参与者对于简单实时战略游戏中 RL 代理的心理模型。结果表明，需要同时结合 saliency 和奖励条才能显著提高心理模型得分。

Mar, 2019

基于能力感知深度强化学习的全局和局部趣味性分析

本文扩展了一个基于 “趣味性” 分析的可解释强化学习框架，并提出了用于评估强化学习智能体竞争力的新机制。这些工具在人机协作环境中为用户提供关于强化学习智能体能力和局限性的见解，以使用户能够做出更加明智的决策。

Nov, 2022

全球路径偏好和本地响应：一种奖励分解方法，用于网络路径选择分析中的局部属性感知

本文研究行人的路径选择行为，提出了一种基于奖励分解的全局和局部路径选择模型，并将其应用于城市街道网络中。研究结果表明，行人在路径选择时更注重局部特征，例如道路视觉质量，而非全局特征。此外，本文的模拟结果认为，在政策相关属性只局部被旅行者感知时，位置选择干预措施非常重要。

Jul, 2023

强化学习的经验性解释

通过 Experiential Explanations 生成局部反事实解释来帮助解释强化学习代理的决策，利用影响预测模型来恢复失去的关于策略如何反映环境的情境信息，并在人类评估研究中实现了更高的正确预测率和更高的解释实用性。

Oct, 2022

为可解释强化学习进行因果状态精炼

本文介绍了一种扩展奖励分解方法的因果学习框架，通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性：因果充分性、稀疏性和正交性，并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程，从而为行动选择提供更有意义和有洞察力的解释。

Dec, 2023

稀疏全局对比解释下的策略优化

本文提出了一种基于强化学习的框架，旨在通过稀疏的、易于理解的变化来改进现有的行为策略，以最小的改变获得尽可能多的利益。我们将最小的改变定义为原始策略与所提出策略之间的稀疏全局对比解释。在保持全局对比解释简短的约束条件下改进当前策略，并在离散 MDP 和连续 2D 导航领域中演示了我们的框架。

Jul, 2022

强化学习代理策略理解与可视化框架

本研究提出了一个框架，用于学习顺序决策任务的可理解模型，通过时间逻辑公式表征代理策略，并使用一个嵌入方法对代理足迹进行聚类，得出在不同的聚类中解释代理策略的逻辑公式，通过编写一个特征提取器和一个可视化工具，对在 StarCraft II 中的战斗场景进行了评估，实验结果表明，本框架可以将代理足迹分为不同的行为组，并为每个行为组提供一致、有意义且易于理解的策略描述。

Aug, 2022