无限宽度下的双层 ReLU 神经网络相图
该论文探讨了深度神经网络的近似速率相图,并证明了几个新的理论结果,具体而言,将 ReLU 网络中深度不连续相的现有结果推广到了任意正光滑的函数类,并确定了可行和不可行速率之间的界限;此外,我们表明所有具有分段多项式激活函数的网络具有相同的相图;接下来,我们证明了具有固定宽度且独立于光滑度的标准全连接架构可以适应光滑度并实现几乎最佳速率;最后,我们考虑了具有周期性激活(“深度傅立叶展开”)的深层网络,并证明它们具有非常快的指数近似速率,这要归功于网络实现高效查找操作的新能力。
Jun, 2019
本研究通过对 ReLU 神经网络的训练过程进行理论性分析,揭示了从随机初始化到最终收敛的整个优化过程,并发现了四个不同阶段,显示了一个从简单到复杂的总体趋势,此外还可以精确地识别和捕捉特定的非线性行为,如初始凝结、鞍点到高原动态、平台逃逸、激活模式的变化、学习随着复杂度的增加等现象。
May, 2023
通过研究完全连接前馈神经网络和卷积神经网络中的有序到混沌转变,展示了如何将合适初始化的神经网络行为理解为吸收相变中的普适临界现象,并且可以成功应用有限尺度缩放,从而导致了信号传播动力学的半定量描述。
Jul, 2023
该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究,发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同,并提出了一种中间状态下集合平均方法可以提高性能。
Jun, 2019
量子神经网络的训练动力学可以用广义的 Lotka-Volterra 方程描述,导致了一个动力学相变。当代价函数的目标值从上方穿过最小可达值到下方时,动力学从冻结核相位变为冻结误差相位,显示了量子神经正切核和总误差之间的二元性。在两个相位中,对于固定点的收敛是指数级的,而在临界点时则是多项式级的。我们通过将训练动力学的 Hessian 映射到虚时间中的 Hamiltonian,揭示了相变的本质是二阶的,指数 ν=1,表现出临界点的尺度不变性和闭合间隙。我们还通过在输出态趋近稳态时的限制 Haar 集合上提供了一个非微扰的解释相变的分析理论。这些理论发现在 IBM 量子设备上得到了实验验证。
Nov, 2023
通过 replica formalism,研究了具有可微激活函数和单个线性输出单元的大型分层神经网络的平衡状态。在学习完全匹配复杂度规则的非常多的隐藏单元的学生网络的基础上,计算了定量的冻结自由能,发现系统在训练集的临界大小下从不专业化到专业化的学生配置的一级相变。通过固定的训练集进行随机梯度下降的计算机模拟表明,平衡结果在实际训练过程中的平台状态中得到了定量描述。
Dec, 1998
本文探讨了梯度下降在高维中非凸优化领域的应用,通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现,研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用,并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。
Feb, 2022
在这项研究中,我们研究了连续分段仿射深度网络(如带有(渗漏的)ReLU 非线性的网络)训练动态的输入空间划分或线性区域,提出了一种包含了本地复杂性的新统计量,观察到在训练过程中,数据点周围的本地复杂性经历了几个阶段,与深度网络的记忆性和概括性能密切相关。
Oct, 2023