学习多级层次结构及回溯

ICLRDec, 2017

Learning Multi-Level Hierarchies with Hindsight

Andrew Levy, George Konidaris, Robert Platt, Kate Saenko

TL;DR本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Abstract

Hierarchical agents have the potential to solve sequential decision making tasks with greater sample efficiency than their non-hierarchical counterparts because hierarchical agents can break down tasks into sets of subtasks that only require short sequences of decisions. In order to re

hierarchical reinforcement learning actor-critic subtasks parallel learning continuous state and action spaces

发现论文，激发创造

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

具备回顾功能的层级强化学习

介绍一种利用通用价值函数和顺势学习相结合的方法，使代理在多个抽象层次上学习时间扩展的动作，并且在离散和连续任务中显著提高了学习效率。

May, 2018

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

从像素到四肢：四足动物运动的分层学习

使用分层强化学习的方法，我们设计了一个四足机器人的策略网络，使之可以对复杂场景和地形进行动态腿部动作并同时处理视觉输入，体现障碍物回避和路径规划，此网络同时学习高层次神经网络策略和底层神经网络策略，达到相对于不分层的神经网络策略更高的学习效率。

Nov, 2020

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

基于因果推断的强化学习层次化结构发现

本论文提出了 CDHRL 框架，通过因果驱动探索而非随机驱动探索来构建高质量的分层结构，以提高分层强化学习的探索效率。实验表明，在 2D-Minecraft 和 Eden 两种复杂环境中，CDHRL 显著提高了探索效率。

Oct, 2022

基于优势辅助奖励的分层强化学习

本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结果表明，相比 Mujoco 领域中其他最先进的 HRL 方法，我们的算法有显著的性能优势，并且发现我们算法训练的低级和高级策略都是可转移的。

Oct, 2019

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

复杂 3D 环境中的分层强化学习

使用层次混合离线 - 在线的深度强化学习代理提出了一种解决 HRL 代理在可视复杂部分可观察 3D 环境中的问题的方法，并在 DeepMind Hard Eight 任务中与非分层 Muesli 基线相竞争，研究揭示了以前未注意到的实际挑战，并为了解复杂领域中的层次代理提供了新的视角。

Feb, 2023