复杂 3D 环境中的分层强化学习
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,并能够在连续状态和动作空间的任务中成功地学习 3 级层级。
Dec, 2017
本论文提出了 CDHRL 框架,通过因果驱动探索而非随机驱动探索来构建高质量的分层结构,以提高分层强化学习的探索效率。实验表明,在 2D-Minecraft 和 Eden 两种复杂环境中,CDHRL 显著提高了探索效率。
Oct, 2022
层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充 HRL 的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的 H (MB) RL 方法不同,这也导致了较低维度的抽象动作。尽管我们的 HMBRL 方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进 HMBRL 方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。
Jun, 2024
本文提出一种基于 Hierarchical Reinforcement Learning 的框架,通过设置辅助奖励来适应下游任务,同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习,无需使用特定任务的知识。实验结果表明,相比 Mujoco 领域中其他最先进的 HRL 方法,我们的算法有显著的性能优势,并且发现我们算法训练的低级和高级策略都是可转移的。
Oct, 2019
本研究提出了一个新的混合离线 - 在线强化学习范式,通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷,并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法,从而为解决实际的复杂任务提供了全新的思路。
Jun, 2022
通过引入想象增强的分层强化学习算法,我们设计了一种新的导航算法,使得智能体能够在真实世界的导航任务中学习安全和交互的行为,提高了成功率并减少了平均步骤的数量。
Nov, 2023