Feb, 2021

关于稳定约束模仿学习的样本复杂度

TL;DR在模仿学习中,专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响,本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法,通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。