层次强化学习中用于紧急操作终止的立即反应方法

Nov, 2022

层次强化学习中用于紧急操作终止的立即反应方法

Emergency action termination for immediate reaction in hierarchical reinforcement learning

Michał Bortkiewicz, Jakub Łyskawa, Paweł Wawrzyński, Mateusz Ostaszewski, Artur Grudkowski...

TL;DR提出一种方法，在强化学习中常常使用高级策略达到低级目标。本文在此基础上，针对现有方法无法验证高级动作是否过时的问题，通过对高级动作不断验证从而保持其有效性。通过实验验证，该方法能够在七个基准环境下同时具备分层 RL 和联邦 RL 的优点，实现了快速训练和即时反应。

Abstract

hierarchical decomposition of control is unavoidable in large dynamical systems. In reinforcement learning (RL), it is usually solved with subgoa

hierarchical decomposition reinforcement learning subgoals validity verification benchmark environments

发现论文，激发创造

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

层次强化学习中生成受邻近约束的子目标

本文研究了基于目标的层次强化学习（HRL）中高层次行动空间（即目标空间）的训练效率问题，提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域，证明该约束在确定性 MDPs 下保留了最优层次策略，实现方法是训练一个区分相邻和非相邻子目标的邻接网络，在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。

Jun, 2020

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

双向可达层次强化学习与相互响应策略

通过互相共享信息和错误修正，我们提出了一种具有双向可达性的层次强化学习算法（BrHPO），该算法在长时间跨度任务中优于其他现有的层次强化学习方法，且具有更高的探索效率和鲁棒性。

Jun, 2024

电力网络拓扑控制的分层强化学习

使用层次强化学习方法控制电网拓扑结构，通过在不同层次应用强化学习算法，实现电网操作的长期目标且在困难任务上超越其他方法。

Nov, 2023

层次强化学习中的特征控制作为内在动机

本文介绍了一种通用的子目标类别，应用于端到端层次强化学习系统中，可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动，或选项，以及对应的子目标。

May, 2017

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

基于因果推断的强化学习层次化结构发现

本论文提出了 CDHRL 框架，通过因果驱动探索而非随机驱动探索来构建高质量的分层结构，以提高分层强化学习的探索效率。实验表明，在 2D-Minecraft 和 Eden 两种复杂环境中，CDHRL 显著提高了探索效率。

Oct, 2022