Dec, 2018

从单次演示中学习 Montezuma's Revenge

TL;DR提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。