低秩穿透神经网络

Mar, 2016

Low-rank passthrough neural networks

Antonio Valerio Miceli Barone

TL;DR本文提出降低数据复杂度及网络内存需求的Passthrough Networks低秩和低秩加对角矩阵参数化方法，同时保持其记忆容量和性能，以提高模型表达能力的同时减少过拟合情况。实验结果表明，此方法在多个任务上取得了有竞争力的表现。

Abstract

deep learning consists in training neural networks to perform computations that sequentially unfold in many steps over a time dimension or an intrinsic depth dimension. Effective learning in this setting is usually accomplished by specialized network architectures that are designed to

发现论文，激发创造

混合凸组合优化问题下的深度学习

本研究提出了一种递归小批量算法，通过离散优化目标找到满足训练集目标的硬阈值激活神经网络，可以提高分类精度，适用于大规模集成系统。

Oct, 2017

一类深度神经网络的无坏局部山谷损失景观

我们确定了一类过参数化的深度神经网络，使用标准激活函数和交叉熵损失，可以证明在参数空间中不存在坏的局部最小值，意味着这些网络没有次优的严格局部极小值。

Sep, 2018

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了SGD可以在多项式时间内发现DNNs训练目标上的全局极小值。

Nov, 2018

（过参数化）神经网络的近线性时间训练

该论文提出了一种基于随机线性代数的改进的二阶优化算法，重新解构了高斯牛顿迭代，使用快速Johnson-Lindenstrauss变换进行预处理，并使用一阶共轭梯度法得到足够好的近似解来训练(moderately overparametrized)ReLU网络，并且取得了快速训练的效果。

Jun, 2020

用于低秩神经网络的非线性初始化方法

我们提出了一种新的低秩初始化框架，用于训练低秩深度神经网络，证明了这种方法在ReLU网络中的有效性，并使用此方法训练了ResNet和EfficientNet模型。

Feb, 2022

高阶L2正则化的线性DNN中隐式SGD偏差：由高到低秩的单向跳跃

通过 SGD 算法，在一定概率下可以从高秩极小值跳到低秩极小值，但跳回去的概率为零，在矩阵补全任务中，目标是收敛到最小秩的局部极小值。

May, 2023

Maestro: 通过可训练分解揭示低秩结构

设计高效的低秩模型，通过一种广义的Ordered Dropout方法将低秩结构内嵌到训练过程中，实现对深度神经网络进行可训练的低秩层插入，从而提取出足够小的模型，保持模型性能并允许在不同性能设备上进行准确性和延迟的权衡。

Aug, 2023

重用梯度下降批次在两层网络中的好处：打破信息与跳跃指数的诅咒

使用两层神经网络学习多指标目标函数时，我们研究了训练动态。我们关注多次梯度下降（GD）使用多次批次并显示它显著改变了对可学习功能的结论，与单次梯度下降相比。特别是，我们发现具有有限步长的多次GD能够克服目标函数的信息指数（Ben Arous等人，2021）和跃迁指数（Abbe等人，2023）的限制，从而与目标子空间重叠。我们表明，在重新使用批次时，即使对于不满足阶梯特性的函数（Abbe等人，2021），网络在仅两个时间步骤内即能与目标子空间有重叠。我们对有限时间内有效学习的（广义的）函数类进行了表征。我们的结果证明基于动态均场理论（DMFT）的分析。我们进一步提供了权重的低维投影的动态过程的闭合形式描述，并通过数值实验来说明该理论。

Feb, 2024

低秩学习设计：网络架构和激活线性在梯度秩崩溃中的作用

我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理，包括“神经坍塌”现象，在训练的后期，DNN内的线性分类器会收敛到特定的几何结构。然而，几何约束在学习中的作用并不仅限于这个阶段。本文对DNN中的梯度秩进行了全面研究，研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解DNN中的学习动态，而且为深度学习工程师提供了实践指导，以便做出明智的设计决策。

Feb, 2024

通过线性层组合的低秩引导训练实现结构保留的网络压缩

本研究论文介绍了一种名为低秩引导训练（LoRITa）的压缩技术，通过组合线性层和使用奇异值截断来促进低秩性，并且在推理时无需改变结构或进行额外的优化，通过实验证明了其有效性，并与其他主流结构剪枝方法相比在FLOPs和参数减少方面取得了竞争性或SOTA结果。

May, 2024