为什么在强化学习中层级结构有时候能够成功?

Sep, 2019

为什么在强化学习中层级结构有时候能够成功?

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?

Ofir Nachum, Haoran Tang, Xingyu Lu, Shixiang Gu, Honglak Lee...

TL;DR本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现，发现大多数观察到的层次性优势可以归因于改进的探索，而不是政策学习或强制性的层次结构。给定此洞察，我们提出了启发式的探索技术，其性能与层次强化学习相当，同时使用和实现要简单得多。

Abstract

hierarchical reinforcement learning has demonstrated significant success at solving difficult reinforcement learning (RL) tasks. Previous works have motivated the use of hierarchy by appealing to a number of intuitive benefits, including learning over temporally extended transitions, e

发现论文，激发创造

层次强化学习中的特征控制作为内在动机

本文介绍了一种通用的子目标类别，应用于端到端层次强化学习系统中，可用于处理含有稀疏奖励的Montezuma的复仇等Atari游戏。该方法引入了一组时间扩展行动，或选项，以及对应的子目标。

May, 2017

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

基于优势加权信息最大化的分级强化学习

本研究提出了一种基于相互信息最大化学习层次策略潜变量的HRL方法，用于优化连续控制任务中的强化学习性能，并介绍了优势加权重要性采样和确定性策略梯度方法，以实现选项策略选择和优化。实验结果表明，该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。

Jan, 2019

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程(ADP)中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

高效探索的层次化技能

本文介绍了一种新的分层技能学习框架，利用无监督学习获得不同复杂度的技能，并自动权衡技能的通用性和特定性，用于动态任务，并表明这种方法产生比现有方法更好的结果。

Oct, 2021

基于路标引导的分层强化学习子目标生成

本文介绍了 HIerarchical reinforcement learning Guided by Landmarks (HIGL) 框架，该框架通过引导探索性的 Landmarks 来训练具有减少动作空间的高层级策略，实现高效探索。实验结果表明，该框架在控制任务中表现优异。

Oct, 2021

分层强化学习中的信用分配

研究探讨了如何从常规多步强化学习的角度看待分层信用分配，并将其改进为能够提高代理性能的层次算法。

Mar, 2022

在强化学习中创建多级技能层次结构

基于图形结构的交互模式，提出了一种基于分层图划分的自主代理技能分层方法，该技能分层具有多层抽象和在强化学习中的实用性。

Jun, 2023

选项的强化学习

目前的论文旨在探索强化学习领域，并在现有方法的基础上构建改进方法，以解决高维度和复杂环境中的学习问题。它通过分层的方式（称为层次强化学习）来分解学习任务，通过构建自主地学习层级结构的代理来提高效果。

Mar, 2024

技能何时帮助强化学习？对时间抽象的理论分析

技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究，理论和实证结果表明，状态解决方案的压缩性较低的环境中强化学习的技能优势较小，技能对于探索比现有经验的学习更具益处，使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究，并帮助强化学习从业者在何时如何使用技能上做出更好的决策。

Jun, 2024