深度残差学习中的频谱集中：一种自由概率方法

Jul, 2018

深度残差学习中的频谱集中：一种自由概率方法

Spectrum concentration in deep residual learning: a free probability approach

Zenan Ling, Xing He, Robert C. Qiu

TL;DR使用自由概率的强大工具对深度残差网络（ResNets）的初始化进行重审，并建议按残差单元数量重新缩放经典随机初始化，以获得数量级更高的学习速度。

Abstract

We revisit the initialization of deep residual networks (ResNets) by introducing a novel analytical tool in free probability to the commun

deep residual networks free probability input-output jacobian rescaling initialization

发现论文，激发创造

深度网络中谱普适性的出现

利用自由概率理论，对深度网络输入 - 输出 Jacobian 谱的结构进行研究，探讨非线性、权值、偏置分布、深度等超参数对 Jacobian 谱的影响。我们发现，不同的非线性函数都符合一些新的普适极限谱分布，即使深度接近无穷，这些分布也可以牢固地集中于 1 附近，从而可以为深度网络的设计提供重要的指导。

Feb, 2018

残差网络通过通用的激活函数实现动态等比特性

本文研究了残差神经网络中动态同构的可达性，借助自由概率和随机矩阵理论，我们导出了初始化时输入输出雅可比矩阵谱密度的通用公式，在大型网络中我们得到了一个依赖于单个参数的奇异值谱，并分析了各种常见激活函数的信号传播，我们通过随机矩阵和 CIFAR-10 分类问题的数值模拟证实了结果，并研究了这种普适性行为对学习过程的影响，最后得出结论：在初始化时选择相同水平的动态同构可以消除激活函数的影响，促进学习。

Sep, 2018

深度神经网络的光谱复杂度

在本文中，我们提出使用极坐标谱来表征网络架构的复杂性，并根据序列的渐近分布对网络进行分类为低阶、稀疏或高阶。我们展示了这种分类方法在标准激活函数和 ReLU 网络的稀疏性质方面的不同特征，并通过数值模拟验证了我们的理论结果。

May, 2024

利用凸分析和 ODE 设计稳定的神经网络

本文提出了一种 ResNet 风格的神经网络架构，编码非扩张（1-Lipschitz）算子，不同于普通的 ResNet 架构，该架构的 Lipschitz 常数不会随着网络深度的增加而呈指数级增长。进一步分析表明，权重的谱范数可以进一步约束，以确保网络是平均算子，使其成为 Plug-and-Play 算法中学习去噪器的自然候选物。通过一种新颖的自适应方法实现了谱范数约束，证明了即使有这些约束，也可以训练出性能良好的网络。提出的架构应用于对抗鲁棒图像分类问题，图像去噪以及反问题退化模糊。

Jun, 2023

通过雅可比谱评估一次性剪枝递归神经网络

这篇论文通过引入一种基于循环雅可比谱的新的循环网络修剪目标，提出了一种高效数据、易于实现的处理方案，能够解决循环网络修剪中的定量和定性问题，并在连续 MNIST、十亿词、Wikitext 等任务中取得了长足进展。

Nov, 2019

由多层感知器的不变性引起的分层 Jacobi 矩阵的渐近自由性：Haar 正交情况

本文证明了在多层感知器中，层级雅可比矩阵的渐近自由假设，使得通过层中传播特征分布成为可能。通过使用自由概率理论得到的结果，在神经网络的参数和输入雅可比矩阵中，它们是层级雅可比矩阵的多项式，通过使用 Haar 正交随机矩阵解决了使用这些雅可比矩阵的数学困难。

Mar, 2021

递归神经网络无模型预测时空动力系统：网络谱半径的作用

通过研究循环神经网络预测非线性动态系统的类，我们发现神经网络中谱半径的区间是最小化预测误差的区域，并且该现象对不同的非线性偏微分方程描述的系统都存在，在优化储水池计算设计方面具有益处。

Oct, 2019

深度缩放 ResNets 在均场极限下的泛化性

在无穷深和宽神经网络的极限状态下，我们对被称为 scaled ResNet 的模型进行研究，以推导出其在 mean-field regime 下的泛化能力的界限，并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性，从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。

Mar, 2024

深度残差网络及其扩展的平均场分析：通过深度超参数化实现可证优化

本文通过对深度残差网络进行连续极限的解释，提出了一种新的深度残差网络连续极限，推导出了多层神经网络在平均场规则下的首个全局收敛结果，并提出了几种基于新连续模型的训练方案，其中之一的训练程序在基准数据集上表现出很强的实证性能。

Mar, 2020

用于低秩神经网络的非线性初始化方法

我们提出了一种新的低秩初始化框架，用于训练低秩深度神经网络，证明了这种方法在 ReLU 网络中的有效性，并使用此方法训练了 ResNet 和 EfficientNet 模型。

Feb, 2022