BriefGPT.xyz
May, 2021
模仿学习的超参数选择
Hyperparameter Selection for Imitation Learning
HTML
PDF
Leonard Hussenot, Marcin Andrychowicz, Damien Vincent, Robert Dadashi, Anton Raichuk...
TL;DR
解决了连续控制环境的模仿学习算法中超参数调整时无法观测到专家演示的外部奖励函数的问题,并通过大量的实证研究提出多种可能的外部奖励代理以及选择超参数的实用建议,结果表明,虽然模仿学习算法对超参数选择敏感,但往往可以通过代理来选择足够好的超参数。
Abstract
We address the issue of tuning
hyperparameters
(HPs) for
imitation learning
algorithms in the context of
continuous-control
, when the unde
→