单隐藏层神经网络在均场极限下 softmax 策略梯度的全局最优性

Oct, 2020

单隐藏层神经网络在均场极限下 softmax 策略梯度的全局最优性

Global optimality of softmax policy gradient with single hidden layer neural networks in the mean-field regime

Andrea Agazzi, Jianfeng Lu

TL;DR本文主要研究了在无限折扣马尔可夫决策过程下，采用 softmax 策略和非线性函数逼近结合策略梯度算法的策略优化问题。研究了广泛性的单隐藏层神经网络在探索过程中的行为，证明了其在参数空间中的分布也可以确定一阶 Wasserstein 梯度流，且当参数初始化满足一定条件时，其固定点为全局最优解。

Abstract

We study the problem of policy optimization for infinite-horizon discounted markov decision processes with softmax policy and nonlinear function approximation trained with policy gradient algorithms. We concentra

policy optimization markov decision processes neural networks entropy regularization wasserstein gradient flow

发现论文，激发创造

均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性

本文研究了策略梯度在无限时间，连续状态和动作空间，及熵正则化的马尔可夫决策过程中的全局收敛性，并证明了在符合足够正则化的情况下，梯度流指数级收敛到唯一的稳态解。

Jan, 2022

政策梯度方法的基本分析

在本文中，我们对以往的优化方法进行系统研究，讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性，提出了新的结果和分析技术。

Apr, 2024

超越稳态：随机 Softmax 策略梯度方法的收敛分析

这篇论文介绍了一种结合动态规划和策略梯度的方法，称为动态策略梯度，其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析，我们发现动态策略梯度训练更好地利用了有限时间问题的结构，这反映在改进的收敛界限上。

Oct, 2023

神经梯度下降上升的均场分析：应用于功能条件矩方程

通过研究定义在无限维函数类上的极小极大优化问题，我们限定函数在过度参数化的两层神经网络类上，并研究（i）梯度下降 - 上升算法的收敛性和（ii）神经网络的表示学习。

Apr, 2024

Softmax 策略梯度方法的全局收敛速度

研究了采用策略梯度法在表格设置下的优化问题，分析并证明了使用 softmax 参数化的策略梯度法具有 O (1/t) 的收敛速率，熵正则化策略梯度法可以以 O (e^{-c * t}) 的线性收敛速度收敛到最优策略，提高了优化速度。通过非均匀 L {} ojasiewicz 度概念解释了该方法的有效性，并在理论上支持了现有的经验研究。

May, 2020

Softmax Policy Gradient 方法可能需要指数时间才能收敛

该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究，给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。

Feb, 2021

两层神经网络的平均场理论：无维界限和核极限

本文探讨利用随机梯度下降学习两层神经网络，将神经网络权重的演化近似为概率分布在 R^D 空间中的演化，从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性，扩展了此结果到无界激活函数的情况，将此结果应用到噪声随机梯度下降过程中，并展示了如何通过平均场分析特殊限制条件下的核岭回归。

Feb, 2019

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

理解具有条件最优输运的无限深度和宽度的 ResNet 的训练

该研究探讨深度神经网络训练中的梯度流收敛问题，并提出了一种基于条件最优传输距离的训练模型，通过梯度流方程的良定性和多项式 - Lojasiewicz 分析证明了在适当的初始化条件下，梯度流可以收敛于全局极小值。

Mar, 2024