MMNov, 2022

改进的 (方差减少的) 策略梯度和自然策略梯度方法分析

TL;DR该论文重新审视和改进策略梯度方法、自然策略梯度方法及其方差减少版本在一般平滑策略参数化下的收敛性,尤其是通过正定的策略的 Fisher 信息阵表明了一种最先进的方差减少策略梯度方法在策略参数化方面仍然存在函数逼近误差,而自然策略梯度方法具有更低的样本复杂度。