通过自我对抗学习用于层次强化学习的目标嵌入

Nov, 2018

通过自我对抗学习用于层次强化学习的目标嵌入

Learning Goal Embeddings via Self-Play for Hierarchical Reinforcement Learning

Sainbayar Sukhbaatar, Emily Denton, Arthur Szlam, Rob Fergus

TL;DR本研究旨在应对层次化强化学习中确定合适的低级策略的挑战，提出基于不对称自我对弈的无监督学习方案，自动学习环境中子目标的好的表示和可执行的低级策略，从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明，该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。

Abstract

In hierarchical reinforcement learning a major challenge is determining appropriate low-level policies. We propose an unsupervised learning scheme, based on asymmetric self-play from Sukhbaatar et al. (2018), tha

hierarchical reinforcement learning unsupervised learning sub-goals policy performance

发现论文，激发创造

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

层次强化学习的近乎最优表示学习

研究了目标驱动分层强化学习中表征学习的问题，提出了表征的子最优性的概念，并给出了衡量表征子最优性的指标，用于优化表征学习目标。实验结果表明该方法在连续控制任务上具有优越性。

Oct, 2018

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

基于无监督学习的目标领域非赏值驱动探索

本研究提出使用深度表示学习算法学习目标空间的方法，通过此方法可以发现探索算法，与工程化表示法相比性能表现相匹配。

Mar, 2018

从游戏中学习潜在计划

该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习，结合自我监督控制和多样性玩耍数据集，实现了对环境中所有可用行为的连续学习，取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现，同时表现出更强的抗干扰能力和重试成功的行为。

Mar, 2019

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

自共轨迹自编码器：轨迹嵌入的分层强化学习

本文提出了一种用于连续性轨迹的生成式模型 ——SeCTAR，该模型结合了变分自编码器和深层强化学习的思想，并提出了一种用于学习 latent representations 的方法。通过在学习到的 latent space 中进行 model-based planning，该模型能够有效地完成多阶段的强化学习任务，超越了标准强化学习方法和以往用于层级推理、model-based planning、探索的方法。

Jun, 2018

稳定子目标表示学习的主动层次探索

本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率，并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态，实验结果表明，我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。

May, 2021