ICLRJan, 2021

进化式强化学习算法

TL;DR通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法,该方法可以广义地适用于训练中未看到的新环境,并能够从头开始学习和提高行业表现。