基于因果推断的强化学习层次化结构发现

Oct, 2022

基于因果推断的强化学习层次化结构发现

Causality-driven Hierarchical Structure Discovery for Reinforcement Learning

Shaohui Peng, Xing Hu, Rui Zhang, Ke Tang, Jiaming Guo...

TL;DR本论文提出了 CDHRL 框架，通过因果驱动探索而非随机驱动探索来构建高质量的分层结构，以提高分层强化学习的探索效率。实验表明，在 2D-Minecraft 和 Eden 两种复杂环境中，CDHRL 显著提高了探索效率。

Abstract

hierarchical reinforcement learning (HRL) effectively improves agents' exploration efficiency on tasks with sparse reward, with the guide of high

hierarchical reinforcement learning high-quality hierarchical structures cdhrl causality-driven discovery exploration efficiency

发现论文，激发创造

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

复杂 3D 环境中的分层强化学习

使用层次混合离线 - 在线的深度强化学习代理提出了一种解决 HRL 代理在可视复杂部分可观察 3D 环境中的问题的方法，并在 DeepMind Hard Eight 任务中与非分层 Muesli 基线相竞争，研究揭示了以前未注意到的实际挑战，并为了解复杂领域中的层次代理提供了新的视角。

Feb, 2023

DHRL: 一种基于图的长时间和稀疏层次强化学习方法

本文提出了使用图形解耦合高层次和低层次策略视野的分层强化学习方法，该方法可以使高层次策略的操作间隔更加灵活，从而实现更长的时域抽象和更快的训练。与现有的分层强化学习算法相比，该方法在数据效率方面表现更好，在典型的分层强化学习环境中实现了复杂任务的长期和复杂的运动和操作。

Oct, 2022

上下文层次逆强化学习

本论文提出了一种新的逆向强化学习（IRL）方法 ——Context Hierarchy IRL（CHIRL），可从专家的演示中学习复杂行为的奖励函数，通过逐层建立上下文图来表达上下文结构，并利用相应的模块深度神经网络表示奖励函数，可以有效解决 IRL 存在的问题，尤其在具有复杂奖励函数的任务中，表现出极高的扩展性和表现力。

Feb, 2022

层次强化学习中的特征控制作为内在动机

本文介绍了一种通用的子目标类别，应用于端到端层次强化学习系统中，可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动，或选项，以及对应的子目标。

May, 2017

多样性驱动可扩展的层次强化学习

本论文提出多层次强化学习 (DEHRL) 框架，使用多个层次以实现对高度抽象目标的学习。通过对 DEHRL 的实验评估，结果表明，DEHRL 在四个方面超过了现有技术的基准线。

Nov, 2018

稳定子目标表示学习的主动层次探索

本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率，并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态，实验结果表明，我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。

May, 2021

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023