Aug, 2020

基于模型的随机价值梯度在连续强化学习中的应用

TL;DR本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法,发现在高维控制任务中,基于模型的策略评估方法比传统方法更有效。