政策优化的贪婪算子：研究正向和反向 KL 散度

Jul, 2021

政策优化的贪婪算子：研究正向和反向 KL 散度

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences

Alan Chan, Hugo Silva, Sungsu Lim, Tadashi Kozuno, A. Rupam Mahmood...

TL;DR本论文研究了使用 KL 散度来进行策略更新的近似策略迭代算法中，正反向 KL 散度的差异及其对策略改进的影响，进一步探讨熵正则化以及使用前向和后向 KL 散度不同选择的策略改进保证，同时提出许多策略梯度方法可作为近似策略迭代算法的实例，为进一步理解和改进我们的策略优化算法提供思路。

Abstract

approximate policy iteration (API) algorithms alternate between (approximate) policy evaluation and (approximate) greedification. Many different approaches have been explored for approximate policy evaluation, but less is understood about approximate greedification and what choices gua

approximate policy iteration kl divergence policy improvement entropy regularization policy gradient methods

发现论文，激发创造

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Sep, 2011

自适应近似策略迭代

本研究提出一种自适应近似政策迭代 (AAPI) 学习方案，其具有较好的理论保证，并基于在线学习技术只考虑价值函数，通过数据相关的自适应学习率和所谓的乐观损失预测相结合，可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限，在许多应用领域中取得了令人瞩目的表现。

Feb, 2020

双策略迭代

本文提出了 Dual Policy Iteration 的概念，利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来，用于处理各种连续控制马尔可夫决策过程。

May, 2018

强化学习的乐观主义和库尔巴克 - 莱布勒散度

本文研究有限 MDP 情景下基于模型的强化学习，提出使用 KL 散度实现乐观策略的目标约束，并证明基于 KL-UCRL 算法相较于 UCRL2 算法在经典评估标准中具有显著改善表现，提供了相对应的几何学分析进行说明。

Apr, 2010

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

对大型语言模型的知识蒸馏中库尔巴克 - 莱布勒散度的重新思考

通过实证和理论证明，逆向 Kullback-Leiber（RKL）分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找，与前向 Kullback-Leiber（FKL）优化目标相同，经过足够多的迭代后二者收敛。基于实践约束，提出了一种简单而有效的自适应 Kullback-Leiber（AKL）分散度方法，可以根据情况分配权重来结合 FKL 和 RKL，根据评估结果显示，该方法在多个任务上优于基准，并提高生成回答的多样性和质量。

Apr, 2024

多步贪心强化学习算法

本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势，并提出了基于 $\kappa$-Policy Iteration 和 $\kappa$-Value Iteration 的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现优于传统的强化学习算法如 DQN 和 TRPO。

Oct, 2019

策略梯度方法的操作符视角

本文通过引入操作符的概念，将传统的强化学习算法中的策略梯度方法如 REINFORCE 和 PPO 等转化成了操作符形式，从而更好地理解它们的原理，同时通过引入新的全局下限，进一步弥合了基于策略和基于价值的方法之间的差距，将 REINFORCE 算法和贝尔曼最优化操作符视为同一概念的两个方面。

Jun, 2020

使用 Tsallis KL 散度的广义 Munchausen 强化学习

该研究探讨了一种广义的 KL 散度，称为 Tsallis KL 散度，并将其应用于政策优化，通过将其与基于 MVI 的 KL 正则化相结合，证明该技术可有效提高 35 个 Atari 游戏的表现。

Jan, 2023