Sep, 2020

相位策略梯度

TL;DRPhasic Policy Gradient (PPG) 是一种强化学习框架,通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员-评论家方法,从而在保持各自优点的同时提高样本利用效率。