Oct, 2019

通过最小化逆动力学不一致性从观察中进行模仿学习

TL;DR本文研究了利用只有状态的演示进行模仿学习的观察学习(LfO)。通过理论和实践的角度,我们首先证明了如果遵循 GAIL 的建模方法,LfD 和 LfO 之间的差距实际上在于模仿者和专家之间的逆动力学模型的分歧。我们提出了 Inverse-Dynamics-Disagreement-Minimization(IDDM)方法,通过进一步缩小与 LfD 之间的差距来增强传统的 LfO 方法。挑战性基准测试的实证结果表明,我们的方法相对于其他 LfO 方法获得了一致的改进。