ICMLAug, 2017

连续控制中基准化深度强化学习任务的再现性

TL;DR本研究探讨了在强化学习中使用策略梯度法的重要性和挑战以及如何提供一致的基准实验来比较新方法。主要研究领域包括连续控制任务、超参数调整和算法的一般方差。