Multiple-step lookahead policies have demonstrated high empirical competence
in reinforcement learning, via the use of monte carlo tree search or Model
Predictive Control. In a recent work \cite{efroni2018beyond}
该研究论文结合了基于模型和基于模型的强化学习方法,提出并分析了一种用于在线定价学习任务的 ε- 策略梯度算法。该算法通过将贪婪的利用替换为梯度下降步骤,并通过模型推理来促进学习。通过量化探索概率 ε 的探索成本和梯度下降优化和梯度估计错误的利用成本,优化了所提出算法的遗憾。该算法在 T 次试验中达到了 O (√T)(乘以一个对数因子)的预期遗憾。
本文提出了一种新的基于模型的强化学习算法 MPPVE(Model-based Planning Policy Learning with Multi-step Plan Value Estimation),通过引入多步计划来替换多步行动,采用多步计划价值估计来更新政策,从而更好地利用学习到的模型,实现比现有基于模型的强化学习方法更好的样本效率。