无模型分层强化学习中的表示学习
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
本文介绍了一种通用的子目标类别,应用于端到端层次强化学习系统中,可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动,或选项,以及对应的子目标。
May, 2017
我们提出了一种通过紧密的表示来发现目标表示的发展机制,该机制可以将具有类似任务角色的环境状态集合抽象(即,分组在一起)。我们引入了一种 Feudal HRL 算法,该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法,结果表明所学到的表示是可解释的、可传递的,并且可以实现高效的学习。
Sep, 2023
高层策略给出低层策略达到的子目标,在这篇论文中,我们提出了一种基于高斯过程的概率子目标表示方法,通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息,从而适应不确定性。同时,我们还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且我们的模型在不同任务之间转移低层策略具有良好的性能。
Jun, 2024
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充 HRL 的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的 H (MB) RL 方法不同,这也导致了较低维度的抽象动作。尽管我们的 HMBRL 方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进 HMBRL 方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。
Jun, 2024
本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率,并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态,实验结果表明,我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。
May, 2021
本文研究了基于目标的层次强化学习(HRL)中高层次行动空间(即目标空间)的训练效率问题,提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域,证明该约束在确定性 MDPs 下保留了最优层次策略,实现方法是训练一个区分相邻和非相邻子目标的邻接网络,在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。
Jun, 2020