可读行为的政策规范化

Mar, 2022

Policy Regularization for Legible Behavior

Michele Persiani, Thomas Hellström

TL;DR本文提出了一种从可观测模型角度注入易解释性行为，以实现在线可解释性的方法，不需要修改学习算法的组件，而是通过对策略的规范化使决策边界对易读性产生影响，以便支持使用者理解和观察 RL 机制。

Abstract

In reinforcement learning interpretability generally means to provide insight into the agent's mechanisms such that its decisions are understandable by an expert upon inspection. This definition, with the resulti

reinforcement learning interpretability explainable planning online settings legibility

发现论文，激发创造

通过策略规范化对智能体进行特征化的强化学习

该论文提出了一种基于正则化的强化学习方法，使代理人的行为具有指定的特征，从而增强了透明度和可解释性，并可应用于金融领域的个性化投资组合优化。

Jan, 2022

猜猜我在干什么”：将易读性扩展到序列决策任务

研究了不确定条件下顺序决策任务中可读性的概念。提出了一种名为 PoL-MDP 的方法，能够处理不确定性，同时具有计算上的可处理性，在多种模拟场景中证明了其在状态决策方面的优势，同时也表明该方法可以被用于反向强化学习。通过用户研究评估了该计算策略的可读性。

Sep, 2022

可解释性？易读性？可预测性？透明度？隐私？安全性？可解读智能行为的新兴领域

本文试图在此新兴领域提供可行的相关概念分类，以应对关于智能体可解释的行为的兴趣和我们尝试回答观察者可能会归因于智能体的意图的问题的解决方案

Nov, 2018

模拟解释：可解释策略学习下的决策理解

了解人类行为以实现决策的透明度和责任感非常重要。我们提出了一种新颖的基于模型的贝叶斯方法进行可解释的政策学习，该方法以数据驱动的方式呈现决策行为，并在偏差的信念更新过程和次优的信念 - 行为映射之间进行联合估计，能够满足透明度、部分可观察性和完全离线操作等关键标准。通过对阿尔茨海默病诊断问题的模拟和真实世界数据的实验，我们展示了我们的方法作为审计、量化和理解人类决策行为的潜力。

Oct, 2023

基因编程用于可解释强化学习策略

通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Dec, 2017

通过模型转换的可解释强化学习

通过使用形式化的马尔科夫决策过程抽象和转换，以自动产生解释的方式，解释强化学习智能体的新兴行为。

Sep, 2022

可解释和可编辑的程序化树策略用于强化学习

我们提出了 INTERPRETER，一种快速蒸馏方法，用于生成用于强化学习的可解释可编辑的树程序。我们通过实验证明，我们的树程序在各种顺序决策任务中能够与训练数据匹配，同时评估了我们设计选择对可解释性和性能的影响。我们展示了我们的策略如何被解释和编辑，以纠正目标对齐错误，并解释真实的农业策略。

May, 2024

朝可解释强化学习的研究社区迈进：InterpPol Workshop

采用解释性强的强化学习方法，回答了解释性和可解释性的区别、透明度必要性的问题，以及可解释策略对神经网络的优势、如何定义和衡量政策的可解释性以及使用哪种强化学习方法来发展可解释的代理等。通过提出 InterpPol Workshop，同时鼓励建立一个围绕上述问题的可解释性强的强化学习社区。

Apr, 2024

亲和力基础强化学习代理的马尔科夫模型符号解释

为了改善现有强化学习算法的透明度不足，研究人员开发了一种策略正则化方法，使用离散化马尔可夫模型的全局代理来复现基于个人消费行为的投资策略，并提出了一种针对这些策略全局内在亲和性的解释方法，以实现对策略行为的推理，从而提高其可解释性。

Aug, 2022

通过反事实轨迹解释强化学习策略

通过展示强化学习代理在更广泛的轨迹分布中的行为，我们的方法可以传达代理在分布转移下的表现，从而有助于代理的有效验证。在用户研究中，我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。

Jan, 2022