Aug, 2019

轨迹控制变量在策略梯度方法中的方差减少应用

TL;DR该研究分析控制变量技术在策略梯度方法中应用的属性和缺陷,并提出了一种新的、递归构造的迹线方法,用于在合理假设下进一步降低方差。