神经动态的低张量秩学习
我们提出使用变分顺序蒙特卡洛方法拟合随机低秩递归神经网络,验证了该方法在多个数据集上的有效性,并展示了对具有分段线性非线性性质的低秩模型进行高效识别的方法,可为大型递归神经网络的推断动态分析提供可行性。
Jun, 2024
我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括 “神经坍塌” 现象,在训练的后期,DNN 内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对 DNN 中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解 DNN 中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。
Feb, 2024
本文提出了一种利用低秩子网提高神经网络效率的算法,该算法在训练期间已经 determined and adapted the subnetworks,从而大幅减少了训练和评估所需的时间和内存资源,并通过数值实验验证了该算法的高效性。
May, 2022
通过理论和实证分析,我们研究发现,初始权重的结构对网络学习机制起着重要影响,具有高秩的初始权重表现出更懒惰的学习,低秩的初始权重倾向于更丰富的学习,同时我们还发现与任务和数据统计信息一致的低秩初始权重仍然可能导致懒散学习。这一研究突出了初始权重结构在塑性代谢成本和灾难性遗忘风险方面的关键作用。
Oct, 2023
本文旨在设计复杂度低的混合张量网络,通过深入研究模型复杂度和实际性能之间的权衡,我们提出了低秩张量列深度神经网络(LR-TT-DNN)和利用卷积神经网络(CNN)与 LR-TT-DNN 相结合的混合模型 CNN +(LR-TT-DNN),并在语音增强和口语命令识别任务上进行评估。我们的实证研究证明,LR-TT-DNN 和 CNN +(LR-TT-DNN)模型能够以更少的模型参数表现得比 TT-DNN 和 CNN +(TT-DNN)更出色。
Mar, 2022
本文提出了一种新的神经网络架构,该架构学习一个特殊的方阵作为权重矩阵,使得隐藏层矩阵的特征值绝对值为 1,避免了权重矩阵导致的梯度问题;通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法,为学习长期依赖任务带来了先进的结果。
Nov, 2015
深度学习中的低秩偏好与神经网络的神经层塌陷现象相关,权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。
Feb, 2024