Jul, 2020

在线发现目标的元梯度强化学习

TL;DR本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标,并灵活地以深度神经网络为参数。随着时间的推移,该算法可以学习如何学习,最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。