具备回顾功能的层级强化学习

May, 2018

Hierarchical Reinforcement Learning with Hindsight

Andrew Levy, Robert Platt, Kate Saenko

TL;DR介绍一种利用通用价值函数和顺势学习相结合的方法，使代理在多个抽象层次上学习时间扩展的动作，并且在离散和连续任务中显著提高了学习效率。

Abstract

reinforcement learning (RL) algorithms can suffer from poor sample efficiency when rewards are delayed and sparse. We introduce a solution that enables agents to learn →

reinforcement learning temporally extended actions sample efficiency universal value functions hindsight learning

发现论文，激发创造

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

强化学习的广义后见之明

提出 Generalized Hindsight 方法用于将多任务学习中无用的数据转化为有用的信息，以提高强化学习中数据的复用效率。

Feb, 2020

回顾策略梯度

本文研究如何将 hindsight 引入到 policy gradient 方法中，对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。

Nov, 2017

事后经验回放

本文提出了一种名为 Hindsight Experience Replay 的新颖技术，它可以有效地学习来自于稀疏二元奖励的知识，避免了复杂奖励工程，并且可以与任意离线 RL 算法相结合，被视为一种隐式的课程。通过在三种不同的任务上进行实验，推动、滑动和拿取 - 放置，每个任务只使用指示任务是否完成的二元奖励，我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明，Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素，并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上，并成功地完成任务。

Jul, 2017

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

层次强化学习用于时间模式预测

我们探索了使用分层强化学习（HRL）来预测时间序列的任务。结合深度学习和分层强化学习的方法，我们开发了一个股票智能体来预测历史股价数据的时间序列，以及一个车辆智能体来预测第一人称车载摄像头图像中的转向角。我们在两个领域的结果表明，称为封建式强化学习的一种 HRL 方法，在训练速度、稳定性和预测准确性方面都有显著的改进。其中的关键因素是多分辨率结构，将时间和空间抽象引入了网络层次结构。

Oct, 2023

基于优势辅助奖励的分层强化学习

本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结果表明，相比 Mujoco 领域中其他最先进的 HRL 方法，我们的算法有显著的性能优势，并且发现我们算法训练的低级和高级策略都是可转移的。

Oct, 2019

USHER: 无偏采样的回顾经验回放

提出了一种基于重要性采样的算法来处理稀疏奖励带来的偏差问题，并在高维度随机环境中显示了其有效性。

Jul, 2022

分层深度强化学习：整合时间抽象和内在动机

文章介绍了一种名为 Hierarchical-DQN 的框架，结合了分层的值函数、内在动机和深度强化学习，在稀疏反馈的环境中，Hierarchical-DQN 可以提供灵活的目标规定和高效的探索，通过在两个问题上的实验表明该方法的有效性。

Apr, 2016