Jun, 2018

利用预测模型加速模仿学习

TL;DR本文介绍两种基于模型的算法,利用 Follow-the-Leader(FTL)规则来提高在线模仿学习系统的收敛速度,其中 MoBIL-VI 算法基于解决变分不等式,而 MoBIL-Prox 算法基于随机一阶更新,这两种方法都利用模型来预测未来的梯度,可以使该学习算法的样本利用率更高。