层次强化学习的近乎最优表示学习

ICLROct, 2018

层次强化学习的近乎最优表示学习

Near-Optimal Representation Learning for Hierarchical Reinforcement Learning

Ofir Nachum, Shixiang Gu, Honglak Lee, Sergey Levine

TL;DR研究了目标驱动分层强化学习中表征学习的问题，提出了表征的子最优性的概念，并给出了衡量表征子最优性的指标，用于优化表征学习目标。实验结果表明该方法在连续控制任务上具有优越性。

Abstract

We study the problem of representation learning in goal-conditioned hierarchical reinforcement learning. In such hierarchical structures,

representation learning hierarchical reinforcement learning sub-optimality continuous-control tasks goal-conditioned

发现论文，激发创造

概率子目标表示的分层强化学习

高层策略给出低层策略达到的子目标，在这篇论文中，我们提出了一种基于高斯过程的概率子目标表示方法，通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息，从而适应不确定性。同时，我们还提出了一种新的学习目标，以实现概率子目标表示和策略的同时学习。实验结果表明，我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准，并且我们的模型在不同任务之间转移低层策略具有良好的性能。

Jun, 2024

分层策略学习对目标空间设计敏感

通过对理想目标空间的研究，系统地分析的各种修改对分层模型学习的影响，结果表明旋转目标空间和噪声对学习没有影响，而具有额外的不必要因素显著地损害了分层模型的学习效果。

May, 2019

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

稳定子目标表示学习的主动层次探索

本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率，并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态，实验结果表明，我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。

May, 2021

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

层次强化学习中的目标空间抽象通过基于集合的可达性分析

我们提出了一种通过紧密的表示来发现目标表示的发展机制，该机制可以将具有类似任务角色的环境状态集合抽象（即，分组在一起）。我们引入了一种 Feudal HRL 算法，该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。

Sep, 2023

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023