双向可达层次强化学习与相互响应策略

Jun, 2024

双向可达层次强化学习与相互响应策略

Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies

Yu Luo, Fuchun Sun, Tianying Ji, Xianyuan Zhan

TL;DR通过互相共享信息和错误修正，我们提出了一种具有双向可达性的层次强化学习算法（BrHPO），该算法在长时间跨度任务中优于其他现有的层次强化学习方法，且具有更高的探索效率和鲁棒性。

Abstract

hierarchical reinforcement learning (HRL) addresses complex long-horizon tasks by skillfully decomposing them into subgoals. Therefore, the effectiveness of HRL is greatly influenced by subgoal reachability. Typi

hierarchical reinforcement learning subgoal reachability bilateral information sharing error correction long-horizon tasks

发现论文，激发创造

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

多样性驱动可扩展的层次强化学习

本论文提出多层次强化学习 (DEHRL) 框架，使用多个层次以实现对高度抽象目标的学习。通过对 DEHRL 的实验评估，结果表明，DEHRL 在四个方面超过了现有技术的基准线。

Nov, 2018

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

DHRL: 一种基于图的长时间和稀疏层次强化学习方法

本文提出了使用图形解耦合高层次和低层次策略视野的分层强化学习方法，该方法可以使高层次策略的操作间隔更加灵活，从而实现更长的时域抽象和更快的训练。与现有的分层强化学习算法相比，该方法在数据效率方面表现更好，在典型的分层强化学习环境中实现了复杂任务的长期和复杂的运动和操作。

Oct, 2022

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

层次强化学习中用于紧急操作终止的立即反应方法

提出一种方法，在强化学习中常常使用高级策略达到低级目标。本文在此基础上，针对现有方法无法验证高级动作是否过时的问题，通过对高级动作不断验证从而保持其有效性。通过实验验证，该方法能够在七个基准环境下同时具备分层 RL 和联邦 RL 的优点，实现了快速训练和即时反应。

Nov, 2022

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

基于优势辅助奖励的分层强化学习

本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结果表明，相比 Mujoco 领域中其他最先进的 HRL 方法，我们的算法有显著的性能优势，并且发现我们算法训练的低级和高级策略都是可转移的。

Oct, 2019

层次强化学习中的目标空间抽象通过基于集合的可达性分析

我们提出了一种通过紧密的表示来发现目标表示的发展机制，该机制可以将具有类似任务角色的环境状态集合抽象（即，分组在一起）。我们引入了一种 Feudal HRL 算法，该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。

Sep, 2023