多样性驱动可扩展的层次强化学习
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
本文提出了使用图形解耦合高层次和低层次策略视野的分层强化学习方法,该方法可以使高层次策略的操作间隔更加灵活,从而实现更长的时域抽象和更快的训练。与现有的分层强化学习算法相比,该方法在数据效率方面表现更好,在典型的分层强化学习环境中实现了复杂任务的长期和复杂的运动和操作。
Oct, 2022
通过互相共享信息和错误修正,我们提出了一种具有双向可达性的层次强化学习算法(BrHPO),该算法在长时间跨度任务中优于其他现有的层次强化学习方法,且具有更高的探索效率和鲁棒性。
Jun, 2024
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,并能够在连续状态和动作空间的任务中成功地学习 3 级层级。
Dec, 2017
本论文提出了 CDHRL 框架,通过因果驱动探索而非随机驱动探索来构建高质量的分层结构,以提高分层强化学习的探索效率。实验表明,在 2D-Minecraft 和 Eden 两种复杂环境中,CDHRL 显著提高了探索效率。
Oct, 2022
本文提出一种基于 Hierarchical Reinforcement Learning 的框架,通过设置辅助奖励来适应下游任务,同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习,无需使用特定任务的知识。实验结果表明,相比 Mujoco 领域中其他最先进的 HRL 方法,我们的算法有显著的性能优势,并且发现我们算法训练的低级和高级策略都是可转移的。
Oct, 2019
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
本文提出了一种新的分层强化学习算法 HiPPO,它可以根据新任务的训练不断调整技能并与更高层次一起训练,该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度,并提出了一种训练时抽象方法,以提高所获得技能对环境变化的鲁棒性。
Jun, 2019
使用层次混合离线 - 在线的深度强化学习代理提出了一种解决 HRL 代理在可视复杂部分可观察 3D 环境中的问题的方法,并在 DeepMind Hard Eight 任务中与非分层 Muesli 基线相竞争,研究揭示了以前未注意到的实际挑战,并为了解复杂领域中的层次代理提供了新的视角。
Feb, 2023
层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充 HRL 的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的 H (MB) RL 方法不同,这也导致了较低维度的抽象动作。尽管我们的 HMBRL 方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进 HMBRL 方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。
Jun, 2024