透過忠實引出的解釋性策略抽取在強化學習中

Sep, 2023

透過忠實引出的解釋性策略抽取在強化學習中

Fidelity-Induced Interpretable Policy Extraction for Reinforcement Learning

Xiao Liu, Wubing Chen, Mao Tan

TL;DR通过引入忠实度衡量机制并将其与强化学习反馈相结合，FIPE 方法在解释性和一致性方面优于现有方法，实验证明其在复杂控制环境中的性能和可理解性均较好。

Abstract

deep reinforcement learning (DRL) has achieved remarkable success in sequential decision-making problems. However, existing DRL agents make decisions in an opaque fashion, hindering the user from establishing trust and scrutinizing weaknesses of the agents. While recent research has de

deep reinforcement learning interpretable policy extraction fidelity-induced policy extraction cumulative rewards starcraft ii

发现论文，激发创造

可编程可解释强化学习

提出了一种编程可解释性强的强化学习框架 (PIRL)，使用高级领域特定编程语言表示策略，提出了基于神经网络生成的策略的可验证和可解释的替代方案，用基于神经网络的 NDPS 算法来优化 PIRL 策略，这种策略较容易被解释和验证，实验结果证明，与传统的深度强化学习相比，PIRL 策略的轨迹更平滑易于迁移。

Apr, 2018

EXPIL：游戏学习中的解释性谓词创造

通过自我发明谓词来减少对预先定义背景知识的依赖，从而实现对逻辑代理的可解释行为。

Jun, 2024

环境探测交互策略

通过引入 EPI-policy，该研究提出了一种新的强化学习策略，可在新环境中提取环境特定信息，并将其作为附加输入提高任务特定策略的性能，并基于转移预测能力的奖励函数进行学习。在新环境中，这种 EPI 策略比通常使用的策略泛化方法要有效得多。

Jul, 2019

模拟解释：可解释策略学习下的决策理解

了解人类行为以实现决策的透明度和责任感非常重要。我们提出了一种新颖的基于模型的贝叶斯方法进行可解释的政策学习，该方法以数据驱动的方式呈现决策行为，并在偏差的信念更新过程和次优的信念 - 行为映射之间进行联合估计，能够满足透明度、部分可观察性和完全离线操作等关键标准。通过对阿尔茨海默病诊断问题的模拟和真实世界数据的实验，我们展示了我们的方法作为审计、量化和理解人类决策行为的潜力。

Oct, 2023

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

强化学习中有解释的离线策略评估：突出具有影响力的状态转移

本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Feb, 2020

可解释和可编辑的程序化树策略用于强化学习

我们提出了 INTERPRETER，一种快速蒸馏方法，用于生成用于强化学习的可解释可编辑的树程序。我们通过实验证明，我们的树程序在各种顺序决策任务中能够与训练数据匹配，同时评估了我们设计选择对可解释性和性能的影响。我们展示了我们的策略如何被解释和编辑，以纠正目标对齐错误，并解释真实的农业策略。

May, 2024

融合模仿学习和强化学习以实现鲁棒的策略改进

该研究通过融合强化学习和模仿学习的方法，利用自适应的策略选择和梯度优化算法，在稀疏奖励场景下有效提高样本效率，并在多个基准领域中展现出卓越的性能。

Oct, 2023

通过策略提取实现可验证的强化学习

使用 VIPER 算法训练决策树策略来增强强化学习的安全性和验证性，它相对于其他算法在 Atari Pong 和 cart-pole 这两项任务上都有着可靠的表现。

May, 2018

基因编程用于可解释强化学习策略

通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Dec, 2017