May, 2021

模仿学习的超参数选择

TL;DR解决了连续控制环境的模仿学习算法中超参数调整时无法观测到专家演示的外部奖励函数的问题,并通过大量的实证研究提出多种可能的外部奖励代理以及选择超参数的实用建议,结果表明,虽然模仿学习算法对超参数选择敏感,但往往可以通过代理来选择足够好的超参数。