学习抽象世界模型用于值保持规划和选项

本文介绍一种新的方法来逐步学习未知环境的抽象模型，并展示了一个智能体如何重复使用学习到的模型来解决目标导航任务，这个抽象模型是一个有限状态机，通过图像分割和 Taskonomy 模型库的利用可以把 RGB-D 图像这样的高维感知数据抽象成环境的不同状态，而通过实施动作、观察所到达的状态并更新抽象模型来完成了它的学习。我们的研究结果表明，利用所学的抽象模型可以提高目标导航的性能。

Mar, 2022

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程 (ADP) 中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

短期预测实现长期规划

通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Feb, 2016

使用宏操作的马尔可夫决策过程的层次解决方案

本文提出了一种使用抽象 MDP 的分层模型，该模型仅与 Macro-actions 一起工作，并显着减少了状态空间的大小，以及讨论了生成 Macro-actions 的几种方法和重用它们以解决多个相关 MDPs 的方式。

Jan, 2013

通过继承表征进行离散状态 - 行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022