Oct, 2019

连续参数环境下深度强化学习课程学习的教师算法

TL;DR本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明,教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境,使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型,我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究,通过对 BipedalWalker 环境的参数化变体,我们研究了算法快速个性化建立不同学生的学习计划的效率,以及对可学环境 / 不可学环境的比率的鲁棒性,以及对于高维参数空间的可扩展性