May, 2019
基于 f - 差距最小化的模仿学习
Imitation Learning as $f$-Divergence Minimization
Liyiming Ke, Sanjiban Choudhury, Matt Barnes, Wen Sun, Gilwoo Lee...
TL;DR本文提出了一种使用多模演示的模仿学习方法,针对现有方法中插值错误的问题,采用与专家状态 - 行动分布的正向 KL 散度相对应的反向 KL 散度,即 I-projection,作为不同 f - 散度估计和最小化的框架,并得出了比 GAIL 和行为克隆更加可靠的多模行为近似 I-projection 方法。