ICMLJul, 2018

为高效探索确定目标取向轨迹

TL;DR本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。