May, 2018

通过观看YouTube玩耐心考验类游戏

TL;DR使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳,本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法,在多个著名游戏中实现真人游戏水平以上的表现。