在强化学习中创建多级技能层次结构
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017
本文研究了如何将技能融入强化学习智能体的训练,提出了基于技能的新方法 Hierarchical Kickstarting(HKS),并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法,并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。
Jul, 2022
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,并能够在连续状态和动作空间的任务中成功地学习 3 级层级。
Dec, 2017
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
Jun, 2023
本文提出了一种新的分层强化学习算法 HiPPO,它可以根据新任务的训练不断调整技能并与更高层次一起训练,该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度,并提出了一种训练时抽象方法,以提高所获得技能对环境变化的鲁棒性。
Jun, 2019
本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现,发现大多数观察到的层次性优势可以归因于改进的探索,而不是政策学习或强制性的层次结构。给定此洞察,我们提出了启发式的探索技术,其性能与层次强化学习相当,同时使用和实现要简单得多。
Sep, 2019
介绍了一种新算法 Hierarchy of Interaction Skills(HIntS),利用 Granger causality 无监督地发现和使用交互探测器训练层次化的技能,解决了强化学习中样本效率低和泛化问题。在机器人推动障碍物任务中,可以将学习到的技能应用到其他相关任务中,并在效率和性能方面显著提高。
Jun, 2023