Jul, 2021

政策优化的贪婪算子:研究正向和反向 KL 散度

TL;DR本论文研究了使用 KL 散度来进行策略更新的近似策略迭代算法中,正反向 KL 散度的差异及其对策略改进的影响,进一步探讨熵正则化以及使用前向和后向 KL 散度不同选择的策略改进保证,同时提出许多策略梯度方法可作为近似策略迭代算法的实例,为进一步理解和改进我们的策略优化算法提供思路。