Dec, 2018

相对熵正则化策略迭代

TL;DR我们提出了一种基于离线策略的 Actor-Critic 算法,结合了随机搜索梯度 - free 优化和学习的动作价值函数,通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤,在 31 个连续控制任务中进行对比与实验,并取得了良好的效果。