Jul, 2015

利用深度预测模型在强化学习中激励探索

TL;DR本文提出一种使用神经网络参数化的模型学习探索奖励的方法,可以用于具有复杂、高维状态空间的任务,同时在Atari游戏领域中获得了最一致的改进。