ICLROct, 2018

通过可达性的情节性好奇心

TL;DR本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法,能够克服以前算法中的问题,让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。