牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁

Oct, 2023

牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁

Bridging the Gap between Newton-Raphson Method and Regularized Policy Iteration

Zeyang Li, Chuxiong Hu, Yunan Wang, Guojian Zhan, Jie Li...

TL;DR通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价，并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性，以及有限步策略评估版本等价于不精确的 Newton 方法。

Abstract

regularization is one of the most important techniques in reinforcement learning algorithms. The well-known soft actor-critic algorithm is a special case of regularized policy iteration where the regularizer is c

regularization reinforcement learning regularized policy iteration convergence behaviors newton-raphson method

发现论文，激发创造

正则化马尔科夫决策过程理论

本文提出了一种正则化的马尔可夫决策过程的一般理论，结合正则化贝尔曼算子和 Legendre-Fenchel 变换，可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析，并与 Mirror Descent 进行了连接。

Jan, 2019

强化学习中的三次正则化策略牛顿算法

论文探讨了基于强化学习的控制问题，提出了两种策略牛顿算法，并证明了算法的渐进收敛性和样本复杂度。

Apr, 2023

相对熵正则化策略迭代

我们提出了一种基于离线策略的 Actor-Critic 算法，结合了随机搜索梯度 - free 优化和学习的动作价值函数，通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤，在 31 个连续控制任务中进行对比与实验，并取得了良好的效果。

Dec, 2018

带熵正则化的线性二次调节器快速策略学习

该研究提出并分析了两种新的策略学习方法：正则化策略梯度（RPG）和迭代策略优化（IPO），用于一类基于无限时间地奖励折扣的线性二次调节器（LQR）问题，该问题通过熵正则化进行优化。在假设能够准确评估策略的情况下，这两种方法都被证明在找到正则化 LQR 的最佳策略时具有线性收敛性。此外，一旦进入最佳策略周围的局部区域，IPO 方法可以实现超线性收敛率。最后，当将来自已知环境中的 RL 问题的最佳策略适当转移为未知环境中的 RL 问题的初始策略时，如果后者与前者足够接近，则 IPO 方法可以实现超线性收敛率。通过数值示例支持这些提出的算法的表现。

Nov, 2023

策略优化在正则化广义和 LQ 博弈中找到纳什均衡

研究引入相对熵正则化对 General-Sum $N$-agent games 的 Nash Equilibria 的影响，揭示了该类游戏的 NE 符合线性高斯策略。此外，本文提出了符合熵正则化充分条件的 NE 唯一性，并证明了在 Policy Optimization 算法中线性收敛性，该算法在熵正则化充分条件下能达到 NE。此外，在熵正则化不足的情况下，我们还提出了一种 δ 增强技术，可实现游戏中的 ε-NE。

Mar, 2024

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

基于正则化的持续学习的统计理论

我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析，重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率，考虑了由矩阵值超参数索引的广义 l2 正则化算法族，包括最小范数估计器和连续岭回归作为特例。随着任务的增加，我们推导了广义 l2 正则化估计器的估计误差的迭代更新公式，从中确定了导致最佳算法的超参数。有趣的是，超参数的选择能够有效平衡前向和后向知识转移的权衡，并适应数据异质性。此外，我们明确地推导出最佳算法的估计误差，它与先验估计器的误差同阶。相比之下，我们的最小范数估计器和连续岭回归的下界显示了它们的子优性。我们的理论分析的副产品是提出了在连续学习中早停和广义 l2 正则化之间的等价性，这可能具有独立的研究价值。最后，我们进行实验以补充我们的理论。

Jun, 2024

具有熵正则化的独立自然策略梯度在游戏中的线性收敛

这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法，通过引入熵正则化实现有界理性的决策，从而使智能体的行为接近纳什均衡，并通过实证结果验证了理论分析的可靠性。

May, 2024

带正则化的政策镜像下降算法：具有线性收敛的广义框架

提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题，具有线性收敛特性，支持一般类别的凸正则化器，并在数值实验中得到验证。

May, 2021