Jan, 2020

生成对抗模仿学习的计算与泛化

TL;DR本文探讨基于生成式对抗性模型的模仿学习算法(Generative Adversarial Imitation Learning,GAIL)的理论性质,证明了对于一般的回报参数化形式,只要正确控制奖励函数的类别,就可以保证泛化效果,并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决,并具有次线性收敛性,这是关于奖励/策略函数逼近的统计和计算保证的第一篇研究。