Feb, 2020

通过双层优化实现模仿学习的可证明表示学习

TL;DR本文研究了在马尔可夫决策过程中多项专家经验和仿真学习设置下的表征学习,并将其实例化到行为克隆和仅观测的仿真学习设置中。理论上,我们展示了在两种设置下,表征学习可以为仿真学习提供样本复杂性优势,并提供了具体实验来验证我们的理论。