使用宏操作的马尔可夫决策过程的层次解决方案

Jan, 2013

使用宏操作的马尔可夫决策过程的层次解决方案

Hierarchical Solution of Markov Decision Processes using Macro-actions

Milos Hauskrecht, Nicolas Meuleau, Leslie Pack Kaelbling, Thomas L. Dean, Craig Boutilier

TL;DR本文提出了一种使用抽象 MDP 的分层模型，该模型仅与 Macro-actions 一起工作，并显着减少了状态空间的大小，以及讨论了生成 Macro-actions 的几种方法和重用它们以解决多个相关 MDPs 的方式。

Abstract

We investigate the use of temporally abstract actions, or macro-actions, in the solution of markov decision processes. Unlike current mode

temporally abstract actions macro-actions markov decision processes hierarchical model local policies

发现论文，激发创造

层次概率模型的抽象 - 细化方法

本文介绍了一种通过层次化结构和抽象 - 细化循环来加速分析马尔科夫决策过程，针对重复部分具有局部影响的概率程序，将类似的子程序抽象成参数化模板，在需要时对其进行详细分析，从而缓解著名的状态空间爆炸问题。

Jun, 2022

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

基于宏动作的部分可观测性多智能体 / 机器人深度强化学习

本文提出了一种基于宏操作（macro-actions）的多智能体强化学习方法，该方法支持异步学习和决策制定，在多智能体 / 机器人领域具有广泛应用价值。本文的算法在多个领域的仿真实验和现实机器人实验中验证了其有效性和高质量解决方案的能力。

Sep, 2022

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

使用具有聚焦效果的宏操作实现高效黑盒规划

本文介绍了一种通过发现具有聚焦效应的宏操作，使目标计数启发式方法更准确的方法，大大提高了黑盒计划的效率。

Apr, 2020

非马尔科夫决策过程中 PAC 强化学习的马尔科夫抽象

本文提出了一种结合自动机学习和经典强化学习的算法，用于学习非马尔可夫决策流程中的马尔科夫抽象，并且证明该算法具有 PAC 保证。

Apr, 2022

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程 (ADP) 中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

通过即时状态条件的动作抽象实现高效蒙特卡罗树搜索

基于组合结构的行为抽象可以提高蒙特卡洛树搜索在具有复杂动作空间问题上的效率。本研究通过学习一个潜在的动态模型和辅助网络，构建了一种状态条件行为抽象方法，用于减少搜索空间并提高采样效率，并在实验中展示了其比传统 MuZero 方法更好的采样效率。

Jun, 2024

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Sep, 2022

具有非稳态马尔可夫策略的延迟环境下的决策行为

该研究提出了一种针对 MDP 的决策学习与规划框架，其中决策制定者执行的动作有 $m$ 步的延迟，研究表明使用非恒定的马尔科夫策略，可以在非常大的延迟下实现最大化奖励，并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。

Jan, 2021