AAAIDec, 2019

一个代理应该如何练习?

TL;DR该研究提出了一种通过学习内在奖励函数来驱动代理在练习期间学习,避免缺乏外在任务奖励的影响的方法,并通过元梯度法来适应练习奖励参数,该方法在格子世界以及两个游戏中进行了评估,显示了在练习和比赛中同时学习的优势。