低秩穿透神经网络
我们确定了一类过参数化的深度神经网络,使用标准激活函数和交叉熵损失,可以证明在参数空间中不存在坏的局部最小值,意味着这些网络没有次优的严格局部极小值。
Sep, 2018
该论文提出了一种基于随机线性代数的改进的二阶优化算法,重新解构了高斯牛顿迭代,使用快速Johnson-Lindenstrauss变换进行预处理,并使用一阶共轭梯度法得到足够好的近似解来训练(moderately overparametrized)ReLU网络,并且取得了快速训练的效果。
Jun, 2020
我们提出了一种新的低秩初始化框架,用于训练低秩深度神经网络,证明了这种方法在ReLU网络中的有效性,并使用此方法训练了ResNet和EfficientNet模型。
Feb, 2022
通过 SGD 算法,在一定概率下可以从高秩极小值跳到低秩极小值,但跳回去的概率为零,在矩阵补全任务中,目标是收敛到最小秩的局部极小值。
May, 2023
设计高效的低秩模型,通过一种广义的Ordered Dropout方法将低秩结构内嵌到训练过程中,实现对深度神经网络进行可训练的低秩层插入,从而提取出足够小的模型,保持模型性能并允许在不同性能设备上进行准确性和延迟的权衡。
Aug, 2023
使用两层神经网络学习多指标目标函数时,我们研究了训练动态。我们关注多次梯度下降(GD)使用多次批次并显示它显著改变了对可学习功能的结论,与单次梯度下降相比。特别是,我们发现具有有限步长的多次GD能够克服目标函数的信息指数(Ben Arous等人,2021)和跃迁指数(Abbe等人,2023)的限制,从而与目标子空间重叠。我们表明,在重新使用批次时,即使对于不满足阶梯特性的函数(Abbe等人,2021),网络在仅两个时间步骤内即能与目标子空间有重叠。我们对有限时间内有效学习的(广义的)函数类进行了表征。我们的结果证明基于动态均场理论(DMFT)的分析。我们进一步提供了权重的低维投影的动态过程的闭合形式描述,并通过数值实验来说明该理论。
Feb, 2024
我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括“神经坍塌”现象,在训练的后期,DNN内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对DNN中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解DNN中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。
Feb, 2024
本研究论文介绍了一种名为低秩引导训练(LoRITa)的压缩技术,通过组合线性层和使用奇异值截断来促进低秩性,并且在推理时无需改变结构或进行额外的优化,通过实验证明了其有效性,并与其他主流结构剪枝方法相比在FLOPs和参数减少方面取得了竞争性或SOTA结果。
May, 2024