Mar, 2019

基于模型的 Atari 强化学习

TL;DR这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法,该方法通过在仅与环境交互 100k 次(两小时实时游戏)的情况下,在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。