Oct, 2023

通过最优传输从观察中进行模仿学习

TL;DR实时观察下的模仿学习 (ILfO) 中,利用最优传输来生成奖励函数,通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异,无需学习模型或对抗学习,可以与任何强化学习算法集成,并适用于 ILfO,能在多个连续控制任务中超越现有方法,在单个专家轨迹无动作观测的情况下实现专家级性能。