无限宽度下的双层 ReLU 神经网络相图

Jul, 2020

无限宽度下的双层 ReLU 神经网络相图

Phase diagram for two-layer ReLU neural networks at infinite-width limit

Tao Luo, Zhi-Qin John Xu, Zheng Ma, Yaoyu Zhang

TL;DR通过实验和理论方法，我们对两层 ReLU 神经网络在无限宽度极限下的动态状态及其与初始化超参数的依赖关系进行了完整表征，并绘制了相图。我们确定了相图中的三个区域：线性区、临界区和凝聚区，分别基于输入权重的相对变化。该相图将神经网络的训练行为及其隐式规范化的更系统性研究迈出了第一步。

Abstract

How neural network behaves during the training over different choices of hyperparameters is an important question in the study of neural networks. In this work, inspired by the →

neural network hyperparameters relu phase diagram dynamical regimes

发现论文，激发创造

无限宽度三层神经网络的实验相图

该研究建立了一个三层无限宽度的神经网络参数初始化的相图，发现不同层的动态行为区别巨大，提供了对不同初始化条件下深度神经网络的研究指导。

May, 2022

深度神经网络逼近率的相图

该论文探讨了深度神经网络的近似速率相图，并证明了几个新的理论结果，具体而言，将 ReLU 网络中深度不连续相的现有结果推广到了任意正光滑的函数类，并确定了可行和不可行速率之间的界限；此外，我们表明所有具有分段多项式激活函数的网络具有相同的相图；接下来，我们证明了具有固定宽度且独立于光滑度的标准全连接架构可以适应光滑度并实现几乎最佳速率；最后，我们考虑了具有周期性激活（“深度傅立叶展开”）的深层网络，并证明它们具有非常快的指数近似速率，这要归功于网络实现高效查找操作的新能力。

Jun, 2019

理解 ReLU 网络的多阶段优化动态和丰富非线性行为

本研究通过对 ReLU 神经网络的训练过程进行理论性分析，揭示了从随机初始化到最终收敛的整个优化过程，并发现了四个不同阶段，显示了一个从简单到复杂的总体趋势，此外还可以精确地识别和捕捉特定的非线性行为，如初始凝结、鞍点到高原动态、平台逃逸、激活模式的变化、学习随着复杂度的增加等现象。

May, 2023

人工深度神经网络中的吸收相变

通过研究完全连接前馈神经网络和卷积神经网络中的有序到混沌转变，展示了如何将合适初始化的神经网络行为理解为吸收相变中的普适临界现象，并且可以成功应用有限尺度缩放，从而导致了信号传播动力学的半定量描述。

Jul, 2023

深度神经网络中特征和懒惰训练的解耦

该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究，发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同，并提出了一种中间状态下集合平均方法可以提高性能。

Jun, 2019

形状和非形状神经网络的微分方程缩放极限

基于微分方程，本文研究了不同类型的神经网络，包括带有改变规模的激活函数和不带改变规模的激活函数的网络，以及归一化方法与激活函数的关系。

Oct, 2023

大深度量子神经网络中的动力学相变

量子神经网络的训练动力学可以用广义的 Lotka-Volterra 方程描述，导致了一个动力学相变。当代价函数的目标值从上方穿过最小可达值到下方时，动力学从冻结核相位变为冻结误差相位，显示了量子神经正切核和总误差之间的二元性。在两个相位中，对于固定点的收敛是指数级的，而在临界点时则是多项式级的。我们通过将训练动力学的 Hessian 映射到虚时间中的 Hamiltonian，揭示了相变的本质是二阶的，指数 ν=1，表现出临界点的尺度不变性和闭合间隙。我们还通过在输出态趋近稳态时的限制 Haar 集合上提供了一个非微扰的解释相变的分析理论。这些理论发现在 IBM 量子设备上得到了实验验证。

Nov, 2023

软委员会机器的统计物理学和实践培训

通过 replica formalism，研究了具有可微激活函数和单个线性输出单元的大型分层神经网络的平衡状态。在学习完全匹配复杂度规则的非常多的隐藏单元的学生网络的基础上，计算了定量的冻结自由能，发现系统在训练集的临界大小下从不专业化到专业化的学生配置的一级相变。通过固定的训练集进行随机梯度下降的计算机模拟表明，平衡结果在实际训练过程中的平台状态中得到了定量描述。

Dec, 1998

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

深度网络线性区域的训练动态

在这项研究中，我们研究了连续分段仿射深度网络（如带有（渗漏的）ReLU 非线性的网络）训练动态的输入空间划分或线性区域，提出了一种包含了本地复杂性的新统计量，观察到在训练过程中，数据点周围的本地复杂性经历了几个阶段，与深度网络的记忆性和概括性能密切相关。

Oct, 2023