NIPSMay, 2018

演化引导的强化学习策略梯度

TL;DR本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法,该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题,使用基于种群的进化算法来训练深度强化学习代理人,实验结果表明,该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。