具备回顾功能的层级强化学习
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,并能够在连续状态和动作空间的任务中成功地学习 3 级层级。
Dec, 2017
本文提出了一种名为 Hindsight Experience Replay 的新颖技术,它可以有效地学习来自于稀疏二元奖励的知识,避免了复杂奖励工程,并且可以与任意离线 RL 算法相结合,被视为一种隐式的课程。通过在三种不同的任务上进行实验,推动、滑动和拿取 - 放置,每个任务只使用指示任务是否完成的二元奖励,我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明,Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素,并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上,并成功地完成任务。
Jul, 2017
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
我们探索了使用分层强化学习(HRL)来预测时间序列的任务。结合深度学习和分层强化学习的方法,我们开发了一个股票智能体来预测历史股价数据的时间序列,以及一个车辆智能体来预测第一人称车载摄像头图像中的转向角。我们在两个领域的结果表明,称为封建式强化学习的一种 HRL 方法,在训练速度、稳定性和预测准确性方面都有显著的改进。其中的关键因素是多分辨率结构,将时间和空间抽象引入了网络层次结构。
Oct, 2023
本文提出一种基于 Hierarchical Reinforcement Learning 的框架,通过设置辅助奖励来适应下游任务,同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习,无需使用特定任务的知识。实验结果表明,相比 Mujoco 领域中其他最先进的 HRL 方法,我们的算法有显著的性能优势,并且发现我们算法训练的低级和高级策略都是可转移的。
Oct, 2019
文章介绍了一种名为 Hierarchical-DQN 的框架,结合了分层的值函数、内在动机和深度强化学习,在稀疏反馈的环境中,Hierarchical-DQN 可以提供灵活的目标规定和高效的探索,通过在两个问题上的实验表明该方法的有效性。
Apr, 2016