强化学习中的稳定边缘现象研究

Jul, 2023

Investigating the Edge of Stability Phenomenon in Reinforcement Learning

Rares Iordan, Marc Peter Deisenroth, Mihaela Rosca

TL;DR通过研究强化学习中的稳定性边界现象，发现优化动力学可以在不同的问题领域中发生转移，但深度强化学习的优化动力学在某些方面与监督学习不同。

Abstract

Recent progress has been made in understanding optimisation dynamics in neural networks trained with full-batch gradient descent with momentum with the uncovering of the edge of stability phenomenon in supervised

optimisation dynamics edge of stability phenomenon reinforcement learning off-policy q-learning deep rl optimisation

发现论文，激发创造

通过稳定的边界学习阈值神经元

本文研究了大学习率下神经网络训练的非凸性动态，证明了时的稳定性边界，并发现了控制阈值激活函数的第一层偏置和学习率之间的相互关系。

Dec, 2022

神经网络梯度下降通常发生在稳定边缘

本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下，训练损失 Hessian 的最大特征值略高于数值 $2/ ext {(步长)}$，训练损失在短时间内呈现非单调行为，但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致，我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。

Feb, 2021

深度学习中稳定性边缘处的梯度下降理解

研究了神经网络训练中的难点问题 Edge of Stability，发现了一种新的内隐正则化机制，通过对最小化损失面的低维流动，提出对比以往对无穷小更新或梯度噪声的依赖。

May, 2022

轨迹对齐：通过分岔理论理解稳定边缘现象

通过实证研究，证明最大特征值（也被称为锐度）沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象（EoS）的现象，进一步证明了在合适的重新参数化下，不同的梯度下降轨迹会在一个特定的分叉图上对齐，从而建立了锐度逐步增加和 EoS 现象的理论分析。

Jul, 2023

自稳定性：梯度下降在稳定边缘的隐性偏差

本研究发现梯度下降在稳定边缘状态下具有自我稳定性和隐式偏差，可以通过投影梯度下降来描述，并对其在训练过程中的损失、尖锐度和偏差进行了详细预测和验证。

Sep, 2022

高维分析揭示保守的锐化和随机稳定边缘

在全批量情况下，训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中，特征值的增长速度较慢，我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释，它在小批量的情况下与神经切线核的迹有关，而不是大的 Hessian 特征值。我们进行了实验研究，突出了与全批量现象的定性差异，并表明控制随机稳定边界可以帮助优化。

Apr, 2024

大学习速率下梯度下降的稳定性

在本文中，我们证明了在使用二次损失函数优化的线性神经网络中，梯度下降映射是非奇异的，损失函数的全局极小化集合形成平滑流形，并且稳定的极小值在参数空间中形成有界子集。另外，我们证明了如果步长过大，则使梯度下降收敛到临界点的初始化集合的测度为零。

Feb, 2024

稳定性边界训练的原因 —— 分层雅可比对齐

用指数欧拉求解器训练神经网络，以准确近似真实的梯度下降动态系统，证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的，而对齐程度与数据集大小呈幂律关系，相关性系数在 0.74 到 0.98 之间。

May, 2024

深度强化学习的理解与诊断

利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用，但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题，特别是对于高度非凸和复杂的神经网络结构，不可识别、非鲁棒特征对策略决策有较大敏感性。因此，有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法，系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中，我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是，我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时，随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性，并能帮助构建可靠而稳健的深度神经策略。

Jun, 2024

离线强化学习中 Q 值离散度的理解、预测和改善

在离线增强学习中，离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进，提出了解决发散问题的新途径，其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。

Oct, 2023