Sep, 2020

走向模仿学习的基本极限

TL;DR研究了在马尔可夫决策过程中,即使在给定数据集前提下,模仿专家政策的算法可能会存在次优性,并提出了一种基于最小距离函数的新算法,在确定性专家和已知转移模型的情况下,提高了最小极值速率。