May, 2020

基于模型的延迟感知连续控制强化学习

TL;DR该研究提出了延迟感知的马尔可夫决策过程的正式定义,并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架,可以将多步延迟纳入学习到的系统模型中,而无需进行学习。 与 Gym 和 MuJoCo 平台进行的实验表明,与非策略模型无关的强化学习方法相比,所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。