Oct, 2020

使用REINFORCE的高效样本强化学习

TL;DR研究了RL中的policy gradient methods,建立了REINFORCE算法的全局收敛理论,围绕梯度估计和采样效率等方面进行了研究。