Jan, 2018

使用专家演示预训练深度演员 - 评论家强化学习算法

TL;DR本文提出了一种基于专家示范的演员 - 评论家强化学习算法,同时确保性能不会受到专家示范不是全局最优的影响,并在两个典型算法中应用该方法进行试验,表明专家示范预训练不仅能够提高性能,而且更具增强训练的效率。