ICLRFeb, 2020
永不放弃:学习有向探索策略
Never Give Up: Learning Directed Exploration Strategies
Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot...
TL;DR本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。