Dec, 2018

线性二次调节器中基于模型和免模型方法之间的差异:一种渐近观点

TL;DR研究在连续控制任务上,基于模型的方法与无模型方法的样本复杂度差异,发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低,且最佳控制常常需要较少的样本量,这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。