深度残差学习中的频谱集中:一种自由概率方法
利用自由概率理论,对深度网络输入 - 输出 Jacobian 谱的结构进行研究,探讨非线性、权值、偏置分布、深度等超参数对 Jacobian 谱的影响。我们发现,不同的非线性函数都符合一些新的普适极限谱分布,即使深度接近无穷,这些分布也可以牢固地集中于 1 附近,从而可以为深度网络的设计提供重要的指导。
Feb, 2018
本文研究了残差神经网络中动态同构的可达性,借助自由概率和随机矩阵理论,我们导出了初始化时输入输出雅可比矩阵谱密度的通用公式,在大型网络中我们得到了一个依赖于单个参数的奇异值谱,并分析了各种常见激活函数的信号传播,我们通过随机矩阵和 CIFAR-10 分类问题的数值模拟证实了结果,并研究了这种普适性行为对学习过程的影响,最后得出结论:在初始化时选择相同水平的动态同构可以消除激活函数的影响,促进学习。
Sep, 2018
在本文中,我们提出使用极坐标谱来表征网络架构的复杂性,并根据序列的渐近分布对网络进行分类为低阶、稀疏或高阶。我们展示了这种分类方法在标准激活函数和 ReLU 网络的稀疏性质方面的不同特征,并通过数值模拟验证了我们的理论结果。
May, 2024
本文提出了一种 ResNet 风格的神经网络架构,编码非扩张(1-Lipschitz)算子,不同于普通的 ResNet 架构,该架构的 Lipschitz 常数不会随着网络深度的增加而呈指数级增长。进一步分析表明,权重的谱范数可以进一步约束,以确保网络是平均算子,使其成为 Plug-and-Play 算法中学习去噪器的自然候选物。通过一种新颖的自适应方法实现了谱范数约束,证明了即使有这些约束,也可以训练出性能良好的网络。提出的架构应用于对抗鲁棒图像分类问题,图像去噪以及反问题退化模糊。
Jun, 2023
这篇论文通过引入一种基于循环雅可比谱的新的循环网络修剪目标,提出了一种高效数据、易于实现的处理方案,能够解决循环网络修剪中的定量和定性问题,并在连续 MNIST、十亿词、Wikitext 等任务中取得了长足进展。
Nov, 2019
本文证明了在多层感知器中,层级雅可比矩阵的渐近自由假设,使得通过层中传播特征分布成为可能。通过使用自由概率理论得到的结果,在神经网络的参数和输入雅可比矩阵中,它们是层级雅可比矩阵的多项式,通过使用 Haar 正交随机矩阵解决了使用这些雅可比矩阵的数学困难。
Mar, 2021
通过研究循环神经网络预测非线性动态系统的类,我们发现神经网络中谱半径的区间是最小化预测误差的区域,并且该现象对不同的非线性偏微分方程描述的系统都存在,在优化储水池计算设计方面具有益处。
Oct, 2019
在无穷深和宽神经网络的极限状态下,我们对被称为 scaled ResNet 的模型进行研究,以推导出其在 mean-field regime 下的泛化能力的界限,并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性,从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。
Mar, 2024
本文通过对深度残差网络进行连续极限的解释,提出了一种新的深度残差网络连续极限,推导出了多层神经网络在平均场规则下的首个全局收敛结果,并提出了几种基于新连续模型的训练方案,其中之一的训练程序在基准数据集上表现出很强的实证性能。
Mar, 2020
我们提出了一种新的低秩初始化框架,用于训练低秩深度神经网络,证明了这种方法在 ReLU 网络中的有效性,并使用此方法训练了 ResNet 和 EfficientNet 模型。
Feb, 2022