May, 2017

Atari 大挑战数据集

TL;DR本文提出了一种减少数据使用量的方法,即利用人类示范数据对强化学习模型进行训练,在此基础上,作者基于 Atari 2600 回放数据集,发现示范数据的质量和模型的模仿学习性能之间有着密切关联,为进一步拓展该方法提供了研究方向。