Jul, 2023

关于通过最优转运在模仿学习中结合专家示范的研究

TL;DR使用多边际最优传输距离的替代方法,实现了在 OT 意义下多个和多样化状态轨迹的组合,提供了更合理的演示几何平均值,从而使代理从多个专家中学习,并在 OpenAI Gym 控制环境中进行了效率分析,表明标准方法并不总是最优的。