Oct, 2018

随机网络提炼的探索

TL;DR通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合,该研究在探索性 Atari 游戏中显著提高了性能,特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现,并有时完成第一级别。