Apr, 2019

生成性前继模型用于高效模仿学习

TL;DR提出了基于生成模型的前身模型的模仿学习算法,能够将状态 - 动作分布与专家演示中观察到的分布匹配,并使用概率化模型对演示状态的可替代历史进行推理,证明这种方法仅需少量专家演示和自我监督交互即可学习出健壮的策略,并在实验中与现阶段的模仿学习方法进行比较,结果表明在两个模拟机器人操作任务中表现优秀,且应用于实际机器人上的算法具有显著的样本效率。