Mar, 2016

基于模型的持续深度 Q 学习加速

TL;DR本研究探讨了算法和表示方法,以降低针对连续控制任务的深度强化学习的样本复杂度,并提出了两种互补的技术来提高这种算法的效率,包括导出连续 Q 学习算法的归一化优势函数以及使用学习的模型来加速无模型强化学习,并在一组模拟机器人控制任务中表现出明显的改进。