ICMLMay, 2019

演化奖励函数自动化强化学习

TL;DR使用 AutoRL,一种进化层,通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励,使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升,复杂任务上的提升最大。