Oct, 2023

超越稳态:随机 Softmax 策略梯度方法的收敛分析

TL;DR这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。