Aug, 2020
基于模型的随机价值梯度在连续强化学习中的应用
On the model-based stochastic value gradient for continuous reinforcement learning
Brandon Amos, Samuel Stanton, Denis Yarats, Andrew Gordon Wilson
TL;DR本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法,发现在高维控制任务中,基于模型的策略评估方法比传统方法更有效。