BriefGPT.xyz
Jan, 2013
基于参数探索的策略梯度中的高效样本重用
Efficient Sample Reuse in Policy Gradients with Parameter-based Exploration
HTML
PDF
Tingting Zhao, Hirotaka Hachiya, Voot Tangkaratt, Jun Morimoto, Masashi Sugiyama
TL;DR
本文提出一种有效的基于参数探索的政策梯度算法,通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想,成功地降低了算法的方差,从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。
Abstract
The
policy gradient
approach is a flexible and powerful
reinforcement learning
method particularly for problems with
continuous actions
su
→