Feb, 2020

永不放弃:学习有向探索策略

TL;DR本篇论文提出了一种基于强化学习和UVFA框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和kNN算法来构造一种内在奖励信号,以影响策略的学习方式,并在Atari-57游戏套件中得到了很好的表现结果。