深度前馈网络的稳定和一致训练的证明框架
我们证明了基于正则化的梯度剪裁算法可以收敛于深度神经网络损失函数的全局最小值,只要网络具有足够的宽度,并且通过实证证明这一算法在深度学习中与现有的启发式方法相竞争,因此这一算法构成了一种新的严谨深度学习方法。
Apr, 2024
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
Mar, 2018
证明了通过梯度下降(以及正步长)学习多层同质函数时,该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变,从而自动平衡所有层的大小,由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。
Jun, 2018
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
我们提出了一个统一的优化框架,用于训练不同类型的深度神经网络,并在任意损失、激活和正则化函数上建立其收敛性。该框架推广了众所周知的一阶和二阶训练方法,并允许我们展示这些方法在各种深度神经网络架构和学习任务中的收敛性为我们的方法的一种特殊情况。
May, 2018
本文提出了基于静态半空间报告数据结构的神经网络训练方法,通过几何搜索实现亚线性时间的激活神经元识别,并证明该算法可以在 O (M^2/ε^2) 的时间内收敛,其中 M 是系数范数上限,ε 是误差项。
Jul, 2023
通过不可微的激活函数如 GELU 和 SiLU,我们能够在存在量化噪声的情况下,实现对卷积、线性和 Transformer 网络的分析和训练,从而提供实现高性能和可靠硬件的适当激活函数选择。
Feb, 2024
该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络(GNN)的可证明有效的学习算法,并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数,包括 ReLU,Leaky ReLU,Sigmoid,Softplus 和 Swish,并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。
Dec, 2020
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018