Hieros: 分级想象结构化状态空间序列世界模型

ICLROct, 2023

Hieros: 分级想象结构化状态空间序列世界模型

Hieros: Hierarchical Imagination on Structured State Space Sequence World Models

Paul Mattes, Rainer Schlosser, Ralf Herbrich

TL;DR深度强化学习中的一个主要挑战是样本效率问题，通过使用一种层次化策略与世界模型，可以实现对环境的直接交互训练的辅助，以提高想象效率、准确性和探索能力，并在 Atari 100k 基准测试中表现出卓越的性能。

Abstract

One of the biggest challenges to modern deep reinforcement learning (DRL) algorithms is sample efficiency. Many approaches learn a world model

deep reinforcement learning sample efficiency hierarchical policy world model exploration capabilities

发现论文，激发创造

深入探索层级世界模型在强化学习中的限制

层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来，以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架，并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充 HRL 的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理，向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象，从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的 H (MB) RL 方法不同，这也导致了较低维度的抽象动作。尽管我们的 HMBRL 方法在最终回合收益方面表现没有传统方法好，但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战，即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究，讨论了它对领域的影响，并提出了克服这一挑战的未来研究方向。通过分享这些发现，我们旨在为改进 HMBRL 方法论的广泛讨论做出贡献，并帮助开发更有效的复杂决策环境的自主学习系统。

Jun, 2024

城市环境中安全互动自主驾驶的想象增强分层强化学习方法

通过引入想象增强的分层强化学习算法，我们设计了一种新的导航算法，使得智能体能够在真实世界的导航任务中学习安全和交互的行为，提高了成功率并减少了平均步骤的数量。

Nov, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

分层世界模型作为视觉全身人形控制器

基于强化学习的高度数据驱动方法用于视觉全身人形控制，通过层级世界模型生成指令以执行，实现了在模拟 56 自由度人形机器人的 8 个任务上高性能控制策略的合成。

May, 2024

使用深层分层网络生成长期轨迹

本文利用专家示范解决关于建模长时间轨迹的问题，通过提出一种层次化神经网络结构，能够在高维状态空间中，自动识别长短期目标，进而实现不同于传统方法由单一策略为核心，解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例，通过专业体育分析师的判断得出，相较传统基准方法，作者提出的层次化策略能够生成更为真实的轨迹。

Jun, 2017

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018