通过次线性激活神经元识别来实现高效 SGD 神经网络训练
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
本文分析了使用随机梯度下降(SGD)训练包含 ReLU 激活函数的两层前馈神经网络中所谓的 “恒等映射” 结构和高斯分布输入的情况下 SGD 收敛的机理,并通过实验证明使用该结构的多层神经网络具有比普通神经网络更好的性能。
May, 2017
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络(GNN)的可证明有效的学习算法,并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数,包括 ReLU,Leaky ReLU,Sigmoid,Softplus 和 Swish,并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。
Dec, 2020
本文证明了,通过 SGD 训练具有 Leaky ReLU 激活函数的两层神经网络,可以在全局最小化交叉熵的同时学习线性可分数据,且学习的网络具有较为简单的近似线性决策边界。同时,本文提出了一种可以发现权重聚类的优化条件,并通过实验证明了理论分析的正确性。
Jan, 2021
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
本文研究离散时间动力系统与递归神经网络,提出了一种基于随机梯度下降的权重矩阵学习方法,并证明了其近乎最优的样本大小和线性收敛性,适用于激活函数的导数远离零的情形。同时,进行了数值实验以验证理论的正确性。
Sep, 2018
介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法,运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新,提出了一种稳定输出层且范围明确的新型激活函数,得出结论:神经网络的更新值稳定,训练更加精确与流畅。
May, 2023