Apr, 2020

如何学习一个有用的评论家?基于模型的动作梯度估计策略优化

TL;DR本文提出了一种基于动态学习的 MAGE 算法,通过显式学习动作价值梯度,从而进一步优化策略,相较于无模型和有模型的现有算法,该算法在连续控制任务中表现良好。