Jul, 2020
发现强化学习算法
Discovering Reinforcement Learning Algorithms
Junhyuk Oh, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt...
TL;DR该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。