Nov, 2020

深度强化学习中的知识转移(REPAINT)

TL;DR本研究提出了一种名为REPAINT的深度强化学习知识转移算法,它不仅在On-policy学习中传递了预训练模型的表征,还使用基于优势的经验选择方法在Off-policy学习中传递了遵循预训练模型收集的有用样本,实验结果表明REPAINT在任务相似性较低的一般情况下显著缩短了总训练时间,特别当源任务与目标任务不相似或为子任务时, REPAINT在减少训练时间和返回分数的渐近性能方面都优于其他基线。