Jul, 2021
政策优化的贪婪算子:研究正向和反向 KL 散度
Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences
Alan Chan, Hugo Silva, Sungsu Lim, Tadashi Kozuno, A. Rupam Mahmood...
TL;DR本论文研究了使用 KL 散度来进行策略更新的近似策略迭代算法中,正反向 KL 散度的差异及其对策略改进的影响,进一步探讨熵正则化以及使用前向和后向 KL 散度不同选择的策略改进保证,同时提出许多策略梯度方法可作为近似策略迭代算法的实例,为进一步理解和改进我们的策略优化算法提供思路。