Jan, 2013

基于参数探索的策略梯度中的高效样本重用

TL;DR本文提出一种有效的基于参数探索的政策梯度算法,通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想,成功地降低了算法的方差,从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。