选项的强化学习

Mar, 2024

Reinforcement Learning with Options

Ayoub Ghriss, Masashi Sugiyama, Alessandro Lazaric

TL;DR目前的论文旨在探索强化学习领域，并在现有方法的基础上构建改进方法，以解决高维度和复杂环境中的学习问题。它通过分层的方式（称为层次强化学习）来分解学习任务，通过构建自主地学习层级结构的代理来提高效果。

Abstract

The current thesis aims to explore the reinforcement learning field and build on existing methods to produce improved ones to tackle the problem of learning in high-dimensional and complex environments. It addresses such goals by decomposing learning tasks in a hierarchical fashion kno

发现论文，激发创造

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

基于优势加权信息最大化的分级强化学习

本研究提出了一种基于相互信息最大化学习层次策略潜变量的HRL方法，用于优化连续控制任务中的强化学习性能，并介绍了优势加权重要性采样和确定性策略梯度方法，以实现选项策略选择和优化。实验结果表明，该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。

Jan, 2019

多智能体强化学习中的行为层次结构建立

本文研究了多智能体游戏中的泛化问题，提出一种基于博弈论结构的分层代理架构以提高策略推广能力。该方法可以跨层次地进行信用分配，实验结果表明，与传统基线方法相比，分层代理的泛化能力更强。

Jun, 2019

信息受限基元的竞争性集成强化学习

通过信息理论机制，提出了一种基于分解原语的策略输入的设计方法，这种方法比扁平和分层策略的泛化性都更好。

Jun, 2019

为什么在强化学习中层级结构有时候能够成功?

本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现，发现大多数观察到的层次性优势可以归因于改进的探索，而不是政策学习或强制性的层次结构。给定此洞察，我们提出了启发式的探索技术，其性能与层次强化学习相当，同时使用和实现要简单得多。

Sep, 2019

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程(ADP)中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

有期半马尔科夫决策过程中基于期权的遗憾最小化算法分析

本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题，并提供了关于时间抽象的上界，指出通过分层结构可以降低时间抽象，提高学习性能。在此基础上，本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响，并放松了预先训练选项的假设来展示在特定情况下，学习式分层学习可能比标准方法更优。

May, 2023

深入探索层级世界模型在强化学习中的限制

层次模型强化学习(HMBRL)旨在将模型强化学习(MBRL)的更好的样本效率与层次化强化学习(HRL)的抽象能力结合起来，以高效地解决复杂任务。我们在这项工作中描述了一个新颖的HMBRL框架，并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充HRL的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理，向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象，从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的H(MB)RL方法不同，这也导致了较低维度的抽象动作。尽管我们的HMBRL方法在最终回合收益方面表现没有传统方法好，但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战，即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究，讨论了它对领域的影响，并提出了克服这一挑战的未来研究方向。通过分享这些发现，我们旨在为改进HMBRL方法论的广泛讨论做出贡献，并帮助开发更有效的复杂决策环境的自主学习系统。

Jun, 2024

分层平均奖励线性可解的马尔可夫决策过程

我们提出了一种新颖的层次强化学习方法，针对无限时域平均奖励设置中的线性可解决的马尔可夫决策过程（LMDPs）。与以往的工作不同，我们的方法允许同时学习低级和高级任务，而不对低级任务施加限制。我们的方法依赖于创造较小子任务的状态空间分割，并利用这种分割的等价性以实现更高效的学习。然后，我们利用低级任务的组合性来准确表示高级任务的价值函数。实验表明，我们的方法可以比平坦的平均奖励强化学习高出一到几个数量级。

Jul, 2024