May, 2019

基于 f - 差距最小化的模仿学习

TL;DR本文提出了一种使用多模演示的模仿学习方法,针对现有方法中插值错误的问题,采用与专家状态 - 行动分布的正向 KL 散度相对应的反向 KL 散度,即 I-projection,作为不同 f - 散度估计和最小化的框架,并得出了比 GAIL 和行为克隆更加可靠的多模行为近似 I-projection 方法。