Jun, 2023

具有未知转换的可证明高效的对抗性模仿学习

TL;DR本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法OAL的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示MB-TAIL的泛化能力,并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。