深度神经网络的有限时间李雅普诺夫指数
本文利用黎曼几何和高维混沌的平均场理论相结合,研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变,并证明了浅层网络无法高效地计算这种深度随机函数族。此外,我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。
Jun, 2016
使用局部稳定性分析的数学框架,我们研究了前馈神经网络学习动力学的深层理解,推导了三层神经网络在学习回归任务时的切线算子方程,结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中,调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化,我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量,可以预测最终的训练损失。
Apr, 2024
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
在输入较小且卷积核是幺正矩阵的条件下,我们考察了具有平滑 sigmoid 激活函数的单层卷积递归网络的动力学特性,其输出通过诸如立方根等压缩非线性函数与输入相关,且弛豫时间和信号传播的长度尺度都以幂律形式对输入敏感,当输入趋近于 0 时两者均发散。基本动力学机制是网络中的输入产生持续的活动,并进而控制附加输入或信号在空间上的传播抑或时间上的衰减。我们提供了当单个振荡强迫网络或背景值引发持续活动时的稳态的解析解,并导出了时间衰减和空间传播长度与背景值的关系。
May, 2024
本文介绍了一种基于偏微分方程框架的深度残差神经网络和相关学习问题的方法,并研究了前向问题的稳定性和最优性,同时探究了神经网络、PDE 理论、变分分析、优化控制和深度学习之间的算法和理论联系。
May, 2019
本研究旨在证明,通过添加跳跃连接,残差网络将采用基于解析方法确定的次指数正向和反向动态,从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证,Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。
Dec, 2017
我们在简化的双曲线两点边界值问题的模型类别中,证明了解集的深度神经网络 (DNN) 表达能力率的上界,并给出了与奇异扰动参数一致的 Sobolev 范数上的表达能力上界。我们证明了各种 DNN 体系结构的表达能力率上界,包括 ReLU NN,spiking NN,$ anh$- 和 sigmoid-activated NN。后者激活函数可以显式地表示 “指数性边界层解特征”,在 DNN 的最后一层中,即在浅层子网络中,并具有更好的表达能力率上界。我们证明了所有 DNN 体系结构均允许在所谓的 “能量” 和 “平衡” Sobolev 范数中,对于解析输入数据进行强大的指数解表达能力。
Jan, 2024
本文提出了一种新的神经网络表达性问题的方法,其中基于轨迹长度的一维路径上的输出是一种新颖的表达形式。实验得出:(1)计算的函数复杂度随深度指数增长;(2)所有权重不同,加上轨迹正则化是批标准化的一个更简单的选择,但表现相同。
Jun, 2016
本文证明,对于一类良好行为的输入分布,一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核(NTK)和数据核的仿射变换之间的谱范数差异来赋值。我们还表明,这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在,验证了这一点。
Jun, 2020
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019