分层策略学习对目标空间设计敏感

ICLRMay, 2019

分层策略学习对目标空间设计敏感

Hierarchical Policy Learning is Sensitive to Goal Space Design

Zach Dwiel, Madhavun Candadai, Mariano Phielipp, Arjun K. Bansal

TL;DR通过对理想目标空间的研究，系统地分析的各种修改对分层模型学习的影响，结果表明旋转目标空间和噪声对学习没有影响，而具有额外的不必要因素显著地损害了分层模型的学习效果。

Abstract

hierarchy in reinforcement learning agents allows for control at multiple time scales yielding improved sample efficiency, the ability to

reinforcement learning hierarchy sample efficiency long time horizons sub-policy

发现论文，激发创造

层次强化学习的近乎最优表示学习

研究了目标驱动分层强化学习中表征学习的问题，提出了表征的子最优性的概念，并给出了衡量表征子最优性的指标，用于优化表征学习目标。实验结果表明该方法在连续控制任务上具有优越性。

Oct, 2018

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

层次强化学习中的目标空间抽象通过基于集合的可达性分析

我们提出了一种通过紧密的表示来发现目标表示的发展机制，该机制可以将具有类似任务角色的环境状态集合抽象（即，分组在一起）。我们引入了一种 Feudal HRL 算法，该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。

Sep, 2023

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

基于无监督学习的目标领域非赏值驱动探索

本研究提出使用深度表示学习算法学习目标空间的方法，通过此方法可以发现探索算法，与工程化表示法相比性能表现相匹配。

Mar, 2018

稳定子目标表示学习的主动层次探索

本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率，并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态，实验结果表明，我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。

May, 2021

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

层次强化学习的隐空间策略

本文介绍了一种学习分层深度神经网络策略，通过最大熵强化学习目标训练各层解决任务，并通过潜在随机变量进行增广，从而实现多层次策略学习。对标准基准测试任务，通过增加多层，可以改善高层策略表现。对于简单低层次的目标，高熵技能的优化学习可以解决更复杂的稀疏奖励任务。

Apr, 2018