Dec, 2020

应用于 PPO 和 RUDDER 的 Actor-Critic 方法的收敛证明

TL;DR简述:证明了同时学习策略函数(Actor)和价值函数(Critic)的 Actor-Critic 强化学习算法的收敛性,该算法使用深度神经网络,并应用了二时间尺度随机逼近理论的技术。这对使用周期性样本数据并在学习过程中变得更贪心的 Actor-Critic 方法是有效的。