Oct, 2020

模仿策略与环境的误差界

TL;DR通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异,本文发现前者相比后者可以减少复合误差,具有更好的样本复杂度,同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型,提出一种全新的模型导向的增强学习应用方向。