大量随机矩阵乘积及深度神经网络中的梯度

MMDec, 2018

大量随机矩阵乘积及深度神经网络中的梯度

Products of Many Large Random Matrices and Gradients in Deep Neural Networks

Boris Hanin, Mihai Nica

TL;DR研究随机矩阵的乘积，证明其对于任意固定向量的 2 范数的对数渐近于高斯分布，并将其应用于测量深度神经网络的激活函数 ReLU 下的梯度稳定性问题。

Abstract

We study products of random matrices in the regime where the number of terms and the size of the matrices simultaneously tend to infinity. Our main theorem is that the logarithm of the $\ell_2$ norm of such a product applied to any fixed vector is asymptotically Gaussian. The fluctuati

random matrices gaussian fluctuations neural networks relu activations gradient stability

发现论文，激发创造

深度神经网络中出现的随机矩阵。高斯情况

本研究针对出现在深度神经网络分析中的随机矩阵乘积奇异值分布进行了研究，其中，数据矩阵的总体协方差矩阵是随机的，基于随机矩阵理论和标准技术，分析了数据矩阵的非高斯分布并阐述其在分析宏观普适性方面的潜在应用。

Jan, 2020

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的 SGD 动态。

Feb, 2019

高斯过程对神经网络的非渐进逼近

本文研究了随机初始化的宽神经网络能否通过高斯过程来近似。我们在一个无限维函数空间中建立明确的收敛速率，说明了两种不同的情况：同时激活函数的次数和函数的平滑度会决定高斯过程的收敛速度。

Feb, 2021

哪些神经网络架构会导致梯度爆炸和梯度消失？

我们对一个使用 ReLU 激活的随机初始化全连接网络 N 的梯度统计行为进行了严格分析，发现其输出输入 Jacobian 的平方条目的经验方差呈现简单依赖架构的常数 beta 的指数形式，该常数由隐藏层宽度的倒数之和组成，当 beta 很大时，N 在初始化时计算的梯度变化异常剧烈。我们的方法补充了随机网络的平均场理论分析，从这个视角出发，我们对处于混沌边缘的梯度统计的有限宽度修正进行了严格计算。

Jan, 2018

神经网络的随机矩阵方法

研究 Gram 随机矩阵模型，证明当 $n,p,T$ 同时增长时，具有相似行为与样本协方差矩阵模型，应用于单层随机神经网络的渐进性能估计，提供了对随机神经网络基础机制的实际见解，并快速调整网络超参数。

Feb, 2017

古典矩阵群上的线性函数

研究使用 Haar measure 进行随机矩阵采样后，其迹与标准正态分布之间的总变差距离上界，并将 Stein 方法的交换对扩展到存在连续对称性的情况，取得了类似结果的成果.

Sep, 2005

随机内积核矩阵的谱范数

本文研究了一种内积核随机矩阵模型，证明其经验谱分布在大 $n$ 和 $p$ 极限下收敛于一定的测度。通过将其与一个具有相同极限谱的 GUE 矩阵的轨迹矩进行比较，研究了奇数内核函数的情况，该矩阵的谱范数几乎必定收敛于极限谱的边缘。本研究的动机是分析一种利用协方差阈值处理来统计检测和估计稀疏主成分的方法，并且本文的结果表征了样本协方差矩阵在零设置下的最大特征值极限。

Jul, 2015

深度缩放 ResNets 在均场极限下的泛化性

在无穷深和宽神经网络的极限状态下，我们对被称为 scaled ResNet 的模型进行研究，以推导出其在 mean-field regime 下的泛化能力的界限，并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性，从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。

Mar, 2024

高维回归中的缩放和重标定

用随机矩阵理论和自由概率的基本工具简要推导了多种高维岭回归模型的训练和泛化性能，在物理学和深度学习背景的读者中提供了这些主题的介绍和评论。通过自由概率的 $S$ 变换特性，从代数的几行直接获得训练和泛化误差的解析公式，能够直观地识别模型性能的幂律缩放来源。计算了广义类随机特征模型的泛化误差，发现在所有模型中，$S$ 变换对应于训练 - 测试泛化差距，并提供了广义交叉验证估计器的类比。利用这些技术，对具有结构化协变量的非常通用的随机特征模型得到了细粒度的偏差 - 方差分解。这些新颖结果使我们能够发现随机特征模型的缩放区域，在超参数设置中特征的方差限制了性能。我们还演示了随机特征模型中异向权重结构如何限制性能，并导致超参数设置中有限宽度修正的非平凡指数。我们的结果扩展并提供了对早期神经缩放定律模型的统一视角。

May, 2024

浅层神经网络的动态中心极限定理

研究神经网络在梯度下降中的表现，证明了 2 范数的上限可以帮助在训练过程中控制一般化误差，数值实验结果与理论结果相符合。

Aug, 2020