Feb, 2018

截断行动策略梯度

TL;DR该研究提议使用被截断的行动的知识来减少连续控制任务中的方差,并证明新的策略梯度估计器比传统估计器效果更好。