基于像素的深度分层规划
研究使用基于眼动的意图来自动生成子目标,从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。
Jun, 2023
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,并能够在连续状态和动作空间的任务中成功地学习 3 级层级。
Dec, 2017
通过对理想目标空间的研究,系统地分析的各种修改对分层模型学习的影响,结果表明旋转目标空间和噪声对学习没有影响,而具有额外的不必要因素显著地损害了分层模型的学习效果。
May, 2019
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
本文利用专家示范解决关于建模长时间轨迹的问题,通过提出一种层次化神经网络结构,能够在高维状态空间中,自动识别长短期目标,进而实现不同于传统方法由单一策略为核心,解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例,通过专业体育分析师的判断得出,相较传统基准方法,作者提出的层次化策略能够生成更为真实的轨迹。
Jun, 2017
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023
本文介绍了一种学习分层深度神经网络策略,通过最大熵强化学习目标训练各层解决任务,并通过潜在随机变量进行增广,从而实现多层次策略学习。对标准基准测试任务,通过增加多层,可以改善高层策略表现。对于简单低层次的目标,高熵技能的优化学习可以解决更复杂的稀疏奖励任务。
Apr, 2018
Forecaster 是一种深度分层强化学习方法,通过对抽象层次的状态转换动态建模和训练世界模型,在高维状态空间(如像素)等复杂环境中规划高层次目标,并通过树搜索规划程序选择最优高层次目标,从而捕捉建立具有较长时间跨度的世界模型和在下游任务中规划使用这些模型的潜力。在 AntMaze 领域中的单任务学习和新任务泛化方面,我们通过实验证明了 Forecaster 的潜力。
Oct, 2023