具备继承特性的选项传输和 SMDP 抽象
本文提出了一种自动学习基于状态抽象的离散化模型,命名为 Discrete State-Action Abstraction (DSAA),可以有效地解决强化学习中的任务,并且对探索方案的影响进行了模拟和验证。
Jun, 2022
探讨一种名为 Successor Options 的新方法,该方法使用 Successor Representations 构建状态空间模型,通过学习伪奖励来了解内部操作策略,并且适用于高维空间的机器人控制环境。
May, 2019
本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法,证明了 MAXQ-Q 学习算法在一定的条件下收敛,并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。
May, 1999
本文介绍了一种基于 options 框架下的 policy gradient theorems,提出了一种新的 option-critic 架构,能够同时学习 options 的内部策略和终止条件,展现了该框架在离散和连续环境中的灵活性和效率。
Sep, 2016
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
本文分析了不同潜在状态空间的属性,发现了模型学习与模型自由强化学习之间的新联系,并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广,从而进一步实现模型学习和继承特征之间的联系。
Jan, 2019
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中,该方法成功地促进了优化的转移,明显优于其他方法.
Jun, 2016