Oct, 2019

Actor-Critic方法在强化学习中的样本复杂度问题与函数近似

TL;DR本研究提出了一种新的Actor-Critic算法变体,使用Monte Carlo演算法在策略搜索更新期间进行rollouts以控制偏差,不论策略评估技术的选择,我们都能提供Actor-Critic算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于Temporal Difference, Gradient Temporal Difference和Accelerated Gradient Temporal Difference。