May, 2019

基于观测的可证明高效仿真学习

TL;DR设计了一种新的模型无关算法用于能够从观察中学习的模仿学习,可以在大规模的马尔可夫决策过程中学习得到一种近似最优的策略,具有多项式样的效率。