通过次线性激活神经元识别来实现高效 SGD 神经网络训练

Jul, 2023

通过次线性激活神经元识别来实现高效 SGD 神经网络训练

Efficient SGD Neural Network Training via Sublinear Activated Neuron Identification

Lianke Qin, Zhao Song, Yuanyuan Yang

TL;DR本文提出了基于静态半空间报告数据结构的神经网络训练方法，通过几何搜索实现亚线性时间的激活神经元识别，并证明该算法可以在 O (M^2/ε^2) 的时间内收敛，其中 M 是系数范数上限，ε 是误差项。

Abstract

deep learning has been widely used in many fields, but the model training process usually consumes massive computational resources and time. Therefore, designing an efficient →

deep learning neural network training computational resources convex optimization geometric search

发现论文，激发创造

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

具有 ReLU 激活函数的双层神经网络的收敛性分析

本文分析了使用随机梯度下降（SGD）训练包含 ReLU 激活函数的两层前馈神经网络中所谓的 “恒等映射” 结构和高斯分布输入的情况下 SGD 收敛的机理，并通过实验证明使用该结构的多层神经网络具有比普通神经网络更好的性能。

May, 2017

神经网络训练的计算效率

本研究从现代角度重新审视了训练神经网络的计算复杂性，提供了一些可证明高效的实用算法来训练某些类型的神经网络。

Oct, 2014

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018

使用近似梯度下降学习图神经网络

该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络（GNN）的可证明有效的学习算法，并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数，包括 ReLU，Leaky ReLU，Sigmoid，Softplus 和 Swish，并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。

Dec, 2020

使用线性教师研究神经网络中的学习

本文证明了，通过 SGD 训练具有 Leaky ReLU 激活函数的两层神经网络，可以在全局最小化交叉熵的同时学习线性可分数据，且学习的网络具有较为简单的近似线性决策边界。同时，本文提出了一种可以发现权重聚类的优化条件，并通过实验证明了理论分析的正确性。

Jan, 2021

具有结构化数据的高效异步随机梯度算法

该研究探讨了通过 Kronecker 结构加速训练数据输入的方法，从而在数据维度的次线性时间内完成每次迭代。

May, 2023

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入 / 输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

随机梯度下降学习带有非线性激活函数的状态方程

本文研究离散时间动力系统与递归神经网络，提出了一种基于随机梯度下降的权重矩阵学习方法，并证明了其近乎最优的样本大小和线性收敛性，适用于激活函数的导数远离零的情形。同时，进行了数值实验以验证理论的正确性。

Sep, 2018

深度前馈网络的稳定和一致训练的证明框架

介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法，运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新，提出了一种稳定输出层且范围明确的新型激活函数，得出结论：神经网络的更新值稳定，训练更加精确与流畅。

May, 2023