带有目标关系图的层次化和部分可观察的目标驱动策略学习

CVPRMar, 2021

带有目标关系图的层次化和部分可观察的目标驱动策略学习

Hierarchical and Partially Observable Goal-driven Policy Learning with Goals Relational Graph

Xin Ye, Yezhou Yang

TL;DR本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法，使用 Goals Relational Graph 优化部分可观察的目标导向任务，例如目标驱动视觉导航，实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。

Abstract

We present a novel two-layer hierarchical reinforcement learning approach equipped with a goals relational graph (GRG) for tackling the partially observable goal-driven task, such as goal-driven →

hierarchical reinforcement learning goals relational graph partially observable tasks visual navigation generalization performance

发现论文，激发创造

基于图神经网络的符号关系深度强化学习

通过图神经网络和自回归策略分解，构建了一个深度强化学习框架，在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.

Sep, 2020

层次强化学习中的目标空间抽象通过基于集合的可达性分析

我们提出了一种通过紧密的表示来发现目标表示的发展机制，该机制可以将具有类似任务角色的环境状态集合抽象（即，分组在一起）。我们引入了一种 Feudal HRL 算法，该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。

Sep, 2023

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

基于图形的可解释强化学习的两步混合策略学习

本文提出了一种基于图形输入的两步式 RL 策略，透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理，能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。

Jan, 2022

分层策略学习对目标空间设计敏感

通过对理想目标空间的研究，系统地分析的各种修改对分层模型学习的影响，结果表明旋转目标空间和噪声对学习没有影响，而具有额外的不必要因素显著地损害了分层模型的学习效果。

May, 2019

封建图强化学习

使用封建式的强化学习方法，通过分层的图表示来控制具有不同结构的物理代理，并在基准环境中证明框架的概念及其在标准基准和零点转移学习设置方面的良好结果。

Apr, 2023

基于解离式可达性规划的目标驱动强化学习

我们提出了一种基于目标条件的强化学习算法，结合了解缠绕的可达性规划（REPlan），用于解决时间延展任务，在模拟和真实世界任务中，REPlan 显著优于之前最先进的方法。

Jul, 2023

深度学习任务中的目标识别：GRNet 方法

研究使用机器学习将目标识别问题转化为分类任务，利用循环神经网络预测代理目标，并在性能上优于现有方法。

Oct, 2022

分层强化学习用于具有子任务依赖性的零样本普适性

提出了一种新的强化学习问题，该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化，我们提出了一种神经子任务图求解器，通过使用递归神经网络嵌入来编码子任务图，并用基于梯度的策略，图奖励传播来预训练它，进一步通过演员 - 评论家方法微调它，实验结果表明，我们的代理可以进行复杂的推理，找到执行子任务图的近似最优方式，并且在未见的子任务图上具备很好的泛化性能。

Jul, 2018