May, 2018

元梯度强化学习

TL;DR通过梯度元学习算法能够在线交互并学习环境,适应 return 的性质,进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。