该研究提出了一种学习马尔科夫状态抽象表示的新方法,结合逆向模型估计和时态对比学习,可以提高强化学习中的样本效率。
Jun, 2021
该论文提出了一个框架来自我学习代理环境的状态抽象,这些抽象是任务无关的可重用的,从而显著提高了学习效率和代理任务解决的能力。
May, 2022
本文研究了强化学习中的联合时间和状态抽象,其中采用继承特征的新颖抽象机制,使得抽象选项可以在不同环境下转移并进行有效规划。
Oct, 2021
本文提出一种算法,用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明,仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。
Sep, 2021
本文介绍一种新的方法来逐步学习未知环境的抽象模型,并展示了一个智能体如何重复使用学习到的模型来解决目标导航任务,这个抽象模型是一个有限状态机,通过图像分割和 Taskonomy 模型库的利用可以把 RGB-D 图像这样的高维感知数据抽象成环境的不同状态,而通过实施动作、观察所到达的状态并更新抽象模型来完成了它的学习。我们的研究结果表明,利用所学的抽象模型可以提高目标导航的性能。
Mar, 2022
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
通过将规划问题分为两个阶段(预测和建模),使用递归神经网络,利用监督学习技术通过对输入节点进行优化来解决长期规划问题,从而在自动驾驶应用中学习鲁棒政策,并纳入敌对因素以优化环境。
Feb, 2016
本文提出了一种使用抽象 MDP 的分层模型,该模型仅与 Macro-actions 一起工作,并显着减少了状态空间的大小,以及讨论了生成 Macro-actions 的几种方法和重用它们以解决多个相关 MDPs 的方式。
Jan, 2013
本文提出了一种自动学习基于状态抽象的离散化模型,命名为 Discrete State-Action Abstraction (DSAA),可以有效地解决强化学习中的任务,并且对探索方案的影响进行了模拟和验证。
Jun, 2022