ICLRSep, 2020

高效自动化深度强化学习

TL;DR本文提出了一种基于群体的自动化强化学习(AutoRL)框架,该框架在优化超参数和神经网络结构的同时训练智能体,提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中,我们将元优化所需的环境交互次数减少了一个数量级。