Nov, 2019

基于状态对齐的模仿学习

TL;DR提出一种基于状态对齐的模仿学习方法,旨在训练模仿者尽可能地模仿专家演示中的状态序列,该方法将本地和全局的状态对齐结合到一个强化学习框架中,并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学习设置中显示了其优越性。