我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括 “神经坍塌” 现象,在训练的后期,DNN 内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对 DNN 中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解 DNN 中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。
Feb, 2024
研究表明,完全连接的神经网络在非线性齐次时的表示成本收敛于非线性函数的排序上,然后研究了何时可以恢复数据的 “真实” 排名,最后发现自编码器具有最优非线性排名是自然的去噪声的。
Sep, 2022
本研究探讨了深度神经网络模型稳定秩的空间,分析了前向动力学、初始化、训练和表达性等方面,并通过实证分析表明,仅稳定秩初始化即可加速收敛速度。
Oct, 2021
深度学习中的低秩偏好与神经网络的神经层塌陷现象相关,权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。
神经网络的拓扑结构及同调群,以及仿射映射与任务连续性的关系的研究。
Apr, 2024
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
通过大规模神经记录,我们研究了学习过程中权重矩阵形成的 3-Tensor 的秩,并发现推断得到的权重具有较低的张量秩,并且通过数学结果证明了较低的张量秩权重在训练低维任务的 RNN 中自然地产生。
Aug, 2023
研究的问题是通过压缩来探究神经元网络的鲁棒性并揭示其中的关键特性,其中低秩结构通过核范数正则化促进并结合稀疏性使神经网络显示出显著的鲁棒性。
Jan, 2019
本研究通过开发理论工具来分析 Hessian 映射的范围,提供了深度线性网络 Hessian 级别的确切公式和紧密的上限,以及其冗余程度的原因,从而深入探究了过参数化网络中冗余的来源和程度。
Jun, 2021
本文提出了一种通过组合优化实现网络复杂度最小化以及保持精度不变的方案,利用线性近似的精度函数预测了优化后 CNN 模型的精度,并在 AlexNet 和 VGG-16 上的实验结果表明,与截断 SVD 算法相结合,我们提出的排名选择算法在推理和训练时间方面优于现有技术。
Jun, 2018