选项的强化学习
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
本研究提出了一种基于相互信息最大化学习层次策略潜变量的HRL方法,用于优化连续控制任务中的强化学习性能,并介绍了优势加权重要性采样和确定性策略梯度方法,以实现选项策略选择和优化。实验结果表明,该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。
Jan, 2019
本文研究了多智能体游戏中的泛化问题,提出一种基于博弈论结构的分层代理架构以提高策略推广能力。该方法可以跨层次地进行信用分配,实验结果表明,与传统基线方法相比,分层代理的泛化能力更强。
Jun, 2019
本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现,发现大多数观察到的层次性优势可以归因于改进的探索,而不是政策学习或强制性的层次结构。给定此洞察,我们提出了启发式的探索技术,其性能与层次强化学习相当,同时使用和实现要简单得多。
Sep, 2019
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程(ADP)中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题,并提供了关于时间抽象的上界,指出通过分层结构可以降低时间抽象,提高学习性能。在此基础上,本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响,并放松了预先训练选项的假设来展示在特定情况下,学习式分层学习可能比标准方法更优。
May, 2023
层次模型强化学习(HMBRL)旨在将模型强化学习(MBRL)的更好的样本效率与层次化强化学习(HRL)的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的HMBRL框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充HRL的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的H(MB)RL方法不同,这也导致了较低维度的抽象动作。尽管我们的HMBRL方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进HMBRL方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。
Jun, 2024
我们提出了一种新颖的层次强化学习方法,针对无限时域平均奖励设置中的线性可解决的马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制。我们的方法依赖于创造较小子任务的状态空间分割,并利用这种分割的等价性以实现更高效的学习。然后,我们利用低级任务的组合性来准确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习高出一到几个数量级。
Jul, 2024