Oct, 2018

强化学习算法在倒立摆问题上的比较

TL;DR本文研究了在没有先验动态知识的情况下,利用强化学习算法(如时间差分、策略梯度、价值函数逼近)对基准车杆动力系统进行控制的最优控制策略,进一步提出了将强化学习和摆起控制器相结合的新方法。