Jun, 2018

基于精度的课程学习在深度强化学习中的应用

TL;DR本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境,我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效;然后,我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程,从而提高学习效率。