AAAIJul, 2018

回放:必须不停地倒转

TL;DR提高样本效率是模型自由强化学习中的一个挑战,本文提出了一种名为 Backplay 的方法,利用单个演示构建任务的课程并以该演示的末端为起点进行训练,最终在可竞争方法中优化训练速度。