强化学习中的三次正则化策略牛顿算法

Apr, 2023

强化学习中的三次正则化策略牛顿算法

A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning

Mizhaan Prajit Maniyar, Akash Mondal, Prashanth L.A., Shalabh Bhatnagar

TL;DR论文探讨了基于强化学习的控制问题，提出了两种策略牛顿算法，并证明了算法的渐进收敛性和样本复杂度。

Abstract

We consider the problem of control in the setting of reinforcement learning (RL), where model information is not available. policy gradient algorithms are a popular solution approach for this problem and are usua

reinforcement learning policy gradient algorithms cubic regularization likelihood ratio method convergence

发现论文，激发创造

快速非凸优化的随机三次正则化

本文提出了一个随机变体的经典算法 -- 立方正则化牛顿方法。该算法可以有效地避免鞍点问题，并在仅需要 $\mathcal {\tilde {O}}(\epsilon^{-3.5})$ 个随机梯度和随机海森向量乘积评估的情况下，为一般光滑的非凸函数找到近似的局部极小值。

Nov, 2017

随机方差减少的立方正则化牛顿法

提出了随机方差约减的立方正则牛顿法，应用于非凸优化问题。该方法在半随机梯度和半随机海森矩阵的基础上工作，具有较低的复杂度，并在各种非凸优化问题上得到了验证。

Feb, 2018

牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁

通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价，并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性，以及有限步策略评估版本等价于不精确的 Newton 方法。

Oct, 2023

立方正则化子空间牛顿法用于非凸优化

该论文研究了优化非凸连续函数的问题，提出了一种名为 SSCN 的随机坐标二阶方法，通过在随机子空间应用立方正则化来降低使用二阶信息的计算复杂性，在高维场景中表现出了良好的适用性，并且通过提出自适应采样方案，实现了比传统一阶方法更快的速度。

Jun, 2024

Krylov 立方正则牛顿：一种无维度收敛速度的子空间二阶方法

该研究介绍了一种新的子空间三阶正则牛顿方法，其在解决凸优化问题时具有与维度无关的全局收敛速度，并且在特定谱条件下能恢复到完全维度的三阶正则牛顿方法的收敛速度，数值实验表明该方法比现有的随机子空间方法收敛更快，尤其在高维问题上。

Jan, 2024

牛顿法三次正则化在最小化一致凸函数中的应用

本文研究了立方正则化牛顿法在解决具有一致凸性目标的复合最小化问题时的迭代复杂度。在引入某种程度的二阶条件数的概念后，我们证明了在非退化情况下具有自适应正则化参数估计的方法具有线性收敛率。我们的算法自动实现了具有 H"older 连续的目标平滑部分的不同问题类别中均匀凸目标函数的全局最佳复杂度界限。作为我们发展的副产品，我们证明了牛顿法在具有一致有界二阶导数的强凸函数类上的全局迭代复杂度始终优于梯度法。

May, 2019

非凸优化的子采样三次正则化

本文提出一种基于子采样的方法，以降低 cubic regularization 方法的高计算复杂度，并利用浓度不等式提出相应的采样方案，从而在保证 cubic regularization 方法的全局和局部收敛性的同时，给出其全局收敛保证的首个子采样变体在非凸函数的设置中的实验证明。

May, 2017

随机区块立方牛顿法

通过随机块三次牛顿方法和近端算子，成功优化了三个可微，二次可微和非光滑项的凸函数求和问题，并在多个机器学习问题中实现了成功的优化。

Feb, 2018

适应性随机方差减少的子采样牛顿方法与立方正则化

本文介绍了一种应用于非凸优化的三次正则化牛顿法，并提出了自适应方差调整的方案，通过对随机矩阵的三到四阶矩的分析来实现二阶保证，进而降低黑塞矩阵样本的复杂度。

Nov, 2018

相对熵正则化策略迭代

我们提出了一种基于离线策略的 Actor-Critic 算法，结合了随机搜索梯度 - free 优化和学习的动作价值函数，通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤，在 31 个连续控制任务中进行对比与实验，并取得了良好的效果。

Dec, 2018