Mar, 2020

动态体验回放

TL;DR提出了一种名为动态经验重放(DER)的新技术,它允许强化学习算法不仅使用人类示范的经验重放样本,还使用训练期间由 RL 代理生成的成功转移,因此提高了训练效率,并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验,并比较不同的重放缓冲区结构和 DER 在其中的影响。