May, 2024

策略梯度与主动重要性抽样

TL;DR通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。