Jun, 2020

近端梯度时序差分学习:具有多项式样本复杂度的稳定强化学习

TL;DR本文介绍了近端梯度时序差分学习,通过引入原始 - 对偶鞍点目标函数,提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法,并提出了一种名为 GTD2-MP 的加速算法,使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。