在低维随机空间中提升神经网络训练
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
提出了一种新的高维随机优化方法,将坐标下降法推广到随机子空间,证明了使用自适应采样策略的随机子空间可以显著优于最近文献中常见的盲目采样方法,可以通过相关随机矩阵集合有效生成自适应子空间;在具有不同谱衰减的数据矩阵上验证了该方法在机器学习问题中的速度优势,包括逻辑回归、带随机卷积层的核分类和具有修正线性单元的浅神经网络。
Jun, 2019
本研究提出了一种基于 Scaled Gradient Projection 方法的神经网络演化学习算法,通过横跨重要梯度空间的基向量缩放梯度来避免老任务信息的灾难性遗忘,优化新学习表现,实验证明其在各种任务中性能均优于目前最先进的方法。
Feb, 2023
提出了一种名为 tpSGD 的优化算法,该算法可以在边缘设备上进行学习,并且收敛速度快,具有低内存占用,并且可以训练任意的损失函数和反向传播神经网络,避免了梯度保留的需求,实现了内存优化。实验结果表明,该方法相对于其他梯度自由算法具有更好的性能表现。
Aug, 2022
本文通过一次性的方法在神经网络中学习高准确度的线、曲线、和单纯形来寻找各种应对方法,达到了独立训练网络套索并在训练成本上类似的计算成本,增加了分类器的鲁棒性和准确性。
Feb, 2021
通过研究神经网络的高维度几何特征,特别是通过戈登逃逸定理,我们发现训练维度加上所需损失子级集的高斯宽度,投影到初始化周围的单位球上,必须超过总参数数量,才能使成功概率变大。我们测量了几种架构和数据集的阈值训练维度,发现它是总参数的一小部分,并且和减少训练自由度的更复杂的方法进行了比较。其中,许多最近的研究都表明,可以使用比参数总数少得多的自由度训练深度神经网络。
Jul, 2021