Matthias Plappert, Marcin Andrychowicz, Alex Ray, Bob McGrew, Bowen Baker...
TL;DR介绍了一组具有挑战性的连续控制任务,并提出了许多改进强化学习算法的研究思路。
Abstract
The purpose of this technical report is two-fold. First of all, it introduces
a suite of challenging continuous control tasks (integrated with OpenAI Gym)
based on currently existing robotics hardware. The tasks
我们提出了一种名为 Ready for Production Hierarchical RL(ReProHRL)的方法,它通过强化学习来划分具有层次结构的多目标导航任务,并使用物体检测器作为预处理步骤来学习多目标导航并将其转移到真实世界中,实证结果表明,所提出的 ReProHRL 方法在模拟和真实环境中的训练时间和性能方面均优于最先进的基线方法。