在线神经演员 - 评论家算法的弱收敛分析
本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新,其中演员和评论家同时更新。研究结果表明,均使用线性或深度神经网络时,演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略,尤其是当使用深度神经网络时,该算法首次找到非线性函数逼近情况下的全局最优策略。
Aug, 2020
本文介绍了使用神经网络参数化的演员评论家的政策梯度方法,证明了在超参数化范围内,神经自然策略梯度以亚线性速率收敛到全局最优策略,并且神经普通策略梯度以亚线性速率收敛到稳态点。同时证明了共享神经结构和随机初始化是全局最优解和收敛的关键。该分析为神经策略梯度方法的全局最优性和收敛性提供了第一个保证。
Aug, 2019
介绍一种基于 Actor-Critic 的在线时序差异算法,用于评估值函数以及更新参数,且可以实现对平均奖励的局部最大值的收敛,为构建更真实的强化学习神经科学模型提供了可能性。
Sep, 2009
本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用,提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性,评估其采样轨迹的有效性,并以样本数为单位展开学习效率的分析,为优化全局最优解的搜索提出了提高性能的方法。
Jan, 2021
本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究,证明了该方法可以找到非凸性能函数的一阶稳定点,并提供了样本复杂度的有限时间约束。
May, 2020
该研究提供了 Actor-Critic(AC)算法和 Natural Actor-Critic(NAC)算法的最紧密的非渐近收敛界限,并使用兼容函数逼近进行收敛性分析。
Jun, 2024
开发数学方法来表征随着隐藏单元数量、数据样本序列、隐藏状态更新和训练步骤同时趋向于无穷大,递归神经网络(RNN)的渐近特性。通过研究联合随机代数方程的无穷维 ODE 的解,我们证明了简化权重矩阵的 RNN 收敛到一个无穷维 ODE 的解与固定点耦合。这项分析需要解决针对 RNN 独特的几个挑战,而标准的均场技术无法应用于 RNN,因此我们开发了一种用于 RNN 记忆状态演进的固定点分析方法,并对更新步骤和隐藏单元数量给出了收敛估计。当数据样本和神经网络规模趋向于无穷大时,这些数学方法导致了 RNN 在数据序列上训练时的神经切向核(NTK)极限。
Aug, 2023
本研究证明,当深度趋近于无限时,共享同一权重矩阵的 ResNet 类型深度神经网络上的随机梯度下降收敛于神经 ODE 的随机梯度下降,并且相应的值 / 损失函数收敛。我们的结果为考虑神经 ODE 作为 ResNet 的深度极限提供了理论基础。我们的证明基于相关 Fokker-Planck 方程的衰减估计。
Jun, 2019
本研究提出了一种基于网络结构的马尔可夫潜在博弈模型,以及一种局部演员 - 评论家算法,利用函数逼近方法克服了维度诅咒,并给出了与局部误差和函数逼近误差有关的有限样本保证,实验证明该算法能够有效地处理多智能体竞争博弈问题。
Mar, 2023
本文针对神经网络近似的 NAC 算法进行了有限时间分析,并指出了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上达到证明良好性能的作用,特别地,我们证明熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略,正则化导致了在正则化 MDPs 中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差 - 方差权衡,而在此过程中,我们还发现了在全局优化中实现演员神经网络的均匀逼近能力的重要性,因为其具有分布转移的特征。
Jun, 2022