具有缩减计划的分层强化学习

ICMLJun, 2018

Hierarchical Reinforcement Learning with Abductive Planning

Kazeto Yamamoto, Takashi Onishi, Yoshimasa Tsuruoka

TL;DR本文提出了一种基于阿布达比符号规划的层次强化学习方法，该规划器可以处理用户定义的评估函数，并且不基于 Herbrand 定理。因此，它可以利用奖励的先前知识，并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时，相对于评估领域的训练样例数量，可以显著提高学习效率。

Abstract

One of the key challenges in applying reinforcement learning to real-life problems is that the amount of train-and-error required to learn a good policy increases drastically as the task becomes complex. One potential solution to this problem is to combine →

reinforcement learning automated symbol planning hierarchical rl abductive symbolic planning learning efficiency

发现论文，激发创造

PEORL: 集成符号化规划与层次化强化学习用于鲁棒性决策

本文介绍了一种统一框架 PEORL，将符号计划与分层强化学习相结合，以应对不确定的动态环境下的决策制定，通过符号计划指导智能体的任务执行和学习，学到的经验则反馈给符号知识以改进计划，可在复杂领域产生快速的策略搜索和稳健的符号计划。

Apr, 2018

从语义到执行：将动作规划与强化学习相结合，用于机器人因果问题解决

本文介绍了一种基于奖励稀疏性的桥梁方法，将符号行动计划和强化学习相结合，以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题，并成功利用了数据和知识。

May, 2019

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

使用深度学习为分层机器人规划引导抽象化

本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法，得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明，所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用，在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。

Feb, 2022

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程 (ADP) 中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

具有 AI 规划模型的分层强化学习

本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法，通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系，使用内在奖励学习定义层次强化学习中的操作，以增强其一致性与从容。实验结果表明，与现有方法相比，该方法在 MiniGrid 和 N 房间环境中表现更好。

Mar, 2022

层次强化学习中的目标空间抽象通过基于集合的可达性分析

我们提出了一种通过紧密的表示来发现目标表示的发展机制，该机制可以将具有类似任务角色的环境状态集合抽象（即，分组在一起）。我们引入了一种 Feudal HRL 算法，该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。

Sep, 2023

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018