ICLRMay, 2020

模型增强的 Actor-Critic 算法:透过路径反向传播

TL;DR本文介绍了一种新的基于模型的强化学习算法,通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法,同时通过学习一个演员评论家,使用终端值函数避免了通过多个时间步长的不稳定性。结果显示,该方法比现有的最先进的基于模型的算法在样本效率上更为一致,并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能,而且具有可扩展性。