Jul, 2019

基于收敛上级的同策略机器人仿真学习

TL;DR本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果,并提供了多达 80 倍的策略评估加速。