稳定子目标表示学习的主动层次探索

ICLRMay, 2021

稳定子目标表示学习的主动层次探索

Active Hierarchical Exploration with Stable Subgoal Representation Learning

Siyuan Li, Jin Zhang, Jianhao Wang, Yang Yu, Chongjie Zhang

TL;DR本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率，并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态，实验结果表明，我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。

Abstract

goal-conditioned hierarchical reinforcement learning (GCHRL) provides a promising approach to solving long-horizon tasks. Recently, its success has been extended to more general settings by concurrently learning hierarchical policies and →

goal-conditioned hierarchical reinforcement learning hierarchical policies subgoal representations exploration ability sparse rewards

发现论文，激发创造

通过潜在地标图在分层强化学习中平衡探索与利用

通过动态构建潜在标志图 (HILL) 学习潜在目标表示，以解决 GCHRL 中的时间连贯性和探索与利用之间的平衡问题，并通过同时考虑节点和边的新颖性和效用度量开发了平衡探索与利用的子目标选择策略。

Jul, 2023

基于地标的主动探索与稳定底层策略学习

本文介绍了一种基于目标状态和价值函数的探索策略，可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。

Jun, 2023

概率子目标表示的分层强化学习

高层策略给出低层策略达到的子目标，在这篇论文中，我们提出了一种基于高斯过程的概率子目标表示方法，通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息，从而适应不确定性。同时，我们还提出了一种新的学习目标，以实现概率子目标表示和策略的同时学习。实验结果表明，我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准，并且我们的模型在不同任务之间转移低层策略具有良好的性能。

Jun, 2024

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

基于路标引导的分层强化学习子目标生成

本文介绍了 HIerarchical reinforcement learning Guided by Landmarks (HIGL) 框架，该框架通过引导探索性的 Landmarks 来训练具有减少动作空间的高层级策略，实现高效探索。实验结果表明，该框架在控制任务中表现优异。

Oct, 2021

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于 GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

层次强化学习的近乎最优表示学习

研究了目标驱动分层强化学习中表征学习的问题，提出了表征的子最优性的概念，并给出了衡量表征子最优性的指标，用于优化表征学习目标。实验结果表明该方法在连续控制任务上具有优越性。

Oct, 2018

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

层次强化学习中生成受邻近约束的子目标

本文研究了基于目标的层次强化学习（HRL）中高层次行动空间（即目标空间）的训练效率问题，提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域，证明该约束在确定性 MDPs 下保留了最优层次策略，实现方法是训练一个区分相邻和非相邻子目标的邻接网络，在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。

Jun, 2020