基于图形的可解释强化学习的两步混合策略学习

Jan, 2022

基于图形的可解释强化学习的两步混合策略学习

Learning Two-Step Hybrid Policy for Graph-Based Interpretable Reinforcement Learning

Tongzhou Mu, Kaixiang Lin, Feiyang Niu, Govind Thattai

TL;DR本文提出了一种基于图形输入的两步式 RL 策略，透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理，能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。

Abstract

We present a two-step hybrid reinforcement learning (RL) policy that is designed to generate interpretable and robust hierarchical policies on the RL problem with →

hybrid reinforcement learning hierarchical policies graph-based input rule-miner generalization

发现论文，激发创造

带有目标关系图的层次化和部分可观察的目标驱动策略学习

本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法，使用 Goals Relational Graph 优化部分可观察的目标导向任务，例如目标驱动视觉导航，实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。

Mar, 2021

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

基因编程用于可解释强化学习策略

通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Dec, 2017

强化学习政策级解释的生成

为了解释深度强化学习序列的决策，该研究提出了抽象策略图，作为一系列状态的马尔可夫链，以及基于值函数和观测到的转换的抽象策略图生成方法。该方法适用于许多现有的强化学习方法，具有二次时间复杂度和可靠性。

May, 2019

解释性机器人行走的蒸馏强化学习策略：梯度提升机和符号回归

通过采用梯度提升机、可解释性提升机和符号回归的方法，将神经强化学习策略转化为透明的 “玻璃盒” 模型，用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。

Mar, 2024

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

社会可解释性强化学习

基于社会学习原理的 Social Interpretable RL (SIRL) 是一种改善学习效率的新型基于人口的方法，通过模拟社会学习过程使每个群体中的智能体基于自身的个体经验和与同伴的共同经验来解决给定任务，实现了在高风险场景中解释能力关键的强化学习应用。

Jan, 2024

LGR2：语言引导的奖励重新标记加速分层强化学习

开发交互系统，利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了 LGR2，这是一种新颖的层次强化学习框架，利用语言指令生成上层政策的稳定奖励函数，以解决非稳态问题，从而有效地利用语言指令解决机器人控制任务。通过实证分析，我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中获得了超过 70% 的成功率，并在真实世界的场景中展示了出色的泛化能力。

Jun, 2024

封建图强化学习

使用封建式的强化学习方法，通过分层的图表示来控制具有不同结构的物理代理，并在基准环境中证明框架的概念及其在标准基准和零点转移学习设置方面的良好结果。

Apr, 2023

通过分层强化学习在基于文本的游戏中实现泛化

本文介绍了一种基于知识图谱的 RL 代理的层次化框架，通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务，并通过知识图谱选择其中一个，然后在低层次执行子策略进行目标条件强化学习，实验结果表明，所提出的方法具有较好的泛化性能。

Sep, 2021