基于地标的主动探索与稳定底层策略学习

Jun, 2023

基于地标的主动探索与稳定底层策略学习

Landmark Guided Active Exploration with Stable Low-level Policy Learning

Fei Cui, Jiaojiao Fang, Mengke Yang, Guizhong Liu

TL;DR本文介绍了一种基于目标状态和价值函数的探索策略，可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。

Abstract

goal-conditioned hierarchical reinforcement learning (GCHRL) decomposes long-horizon tasks into sub-tasks through a hierarchical framework and it has demonstrated promising results across a variety of domains. Ho

goal-conditioned hierarchical reinforcement learning exploration strategy subgoals novelty

发现论文，激发创造

稳定子目标表示学习的主动层次探索

本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率，并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态，实验结果表明，我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。

May, 2021

基于路标引导的分层强化学习子目标生成

本文介绍了 HIerarchical reinforcement learning Guided by Landmarks (HIGL) 框架，该框架通过引导探索性的 Landmarks 来训练具有减少动作空间的高层级策略，实现高效探索。实验结果表明，该框架在控制任务中表现优异。

Oct, 2021

通过潜在地标图在分层强化学习中平衡探索与利用

通过动态构建潜在标志图 (HILL) 学习潜在目标表示，以解决 GCHRL 中的时间连贯性和探索与利用之间的平衡问题，并通过同时考虑节点和边的新颖性和效用度量开发了平衡探索与利用的子目标选择策略。

Jul, 2023

基于后继特征标志的长视程目标导向强化学习

本文介绍 Successor Feature Landmarks（SFL），它是用于大型、高维空间的探索的一个框架，该框架利用继承特征（SF）的能力来驱动探索，估计状态新颖性，并通过将状态空间抽象为基于非参数地标的图表，启用高级别规划，实现了 GCRL 任务上的超越表现。

Nov, 2021

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于 GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

层次强化学习中生成受邻近约束的子目标

本文研究了基于目标的层次强化学习（HRL）中高层次行动空间（即目标空间）的训练效率问题，提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域，证明该约束在确定性 MDPs 下保留了最优层次策略，实现方法是训练一个区分相邻和非相邻子目标的邻接网络，在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。

Jun, 2020

概率子目标表示的分层强化学习

高层策略给出低层策略达到的子目标，在这篇论文中，我们提出了一种基于高斯过程的概率子目标表示方法，通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息，从而适应不确定性。同时，我们还提出了一种新的学习目标，以实现概率子目标表示和策略的同时学习。实验结果表明，我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准，并且我们的模型在不同任务之间转移低层策略具有良好的性能。

Jun, 2024

通过修剪原型目标扩展目标导向探索的规模

本研究基于强化学习，通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程，弥补探索广域领域中新奇性和涵盖性行为不足的问题，并在三种具有挑战性的环境中证明了目标导向的探索的有效性。

Feb, 2023

通过基于模型的展开实现下层强化学习的引导协作

通过引入模型预测、渐进惩罚等方法，本研究提出了一种基于目标条件的层次强化学习框架，实现了不同层级之间的合作，从而提高了长期目标探索任务中政策的稳定性和效率。实验结果表明，该框架在难度较高的探索问题和机器人控制方面，比基准模型和之前的最先进的层次强化学习算法表现更为稳定和优越。

Sep, 2023

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023