张量程序 III：神经矩阵法则

Sep, 2020

Tensor Programs III: Neural Matrix Laws

Greg Yang

TL;DR该论文发现神经网络中的权重与激活函数节点随着神经网络的宽度趋近于无穷时变得独立，并且给出了这个发现的几个相关应用。

Abstract

In a neural network (NN), *weight matrices* linearly transform inputs into *preactivations* that are then transformed nonlinearly into *activations*. A typical NN interleaves multitudes of such linear and nonlinear transforms to express complex functions. Thus, the (pre-)→

neural networks activations weights asymptotic freeness training

发现论文，激发创造

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的 SGD 动态。

Feb, 2019

张量程序 II：任意结构神经切向核

本文证明了任何结构的随机初始化神经网络在网络宽度趋于无穷大时，都会使其 Tangent Kerne（NTK）收敛于确定性极限，并介绍了如何计算此极限。文章还提到了梯度独立假设（GIA）的常见满足条件 ——Simple GIA Check，并探讨了 GIA 的适用范围和限制。最后，文中给出了基于无限宽度 NTK 的可重复实现的循环神经网络、Transformer 和批归一化等各类网络模型的代码。

Jun, 2020

张量程序 I：任何架构的宽前馈或递归神经网络都是高斯过程

本文通过引入一种表达神经网络计算的语言，证明了具有随机权重和偏置的宽深度神经网络是高斯过程。结果表明，这种神经网络 - 高斯过程对应关系即使对于所有现代前馈或递归神经网络都适用。

Oct, 2019

线性变换器秘密是快速权重编程器

本研究发现线性化自注意力机制与 90 年代早期的快速权重控制器存在正式等价，提出了一种基于增量规则编程指令的快速权重编程器，用以克服近期线性化 softmax 注意力变体的存储容量限制，以及提高动态学习率的计算效率，在合成检索问题以及标准机器翻译和语言模型任务上均获得明显优势。

Feb, 2021

由多层感知器的不变性引起的分层 Jacobi 矩阵的渐近自由性：Haar 正交情况

本文证明了在多层感知器中，层级雅可比矩阵的渐近自由假设，使得通过层中传播特征分布成为可能。通过使用自由概率理论得到的结果，在神经网络的参数和输入雅可比矩阵中，它们是层级雅可比矩阵的多项式，通过使用 Haar 正交随机矩阵解决了使用这些雅可比矩阵的数学困难。

Mar, 2021

矩阵神经网络

提出了一种矩阵神经网络（MatNet），通过双线性映射从上一层单元中感知总结信息，并方便地扩展到多模输入，应用于 MNIST 手写数字分类和图像超分辨率任务中，具有与最先进方法可比较的性能和大大降低的复杂性。

Jan, 2016

关于雅可比正则化训练神经网络的无限宽度分析

该研究采用无穷宽度分析，证明了深度神经网络及其雅可比矩阵初始条件下，当隐藏层宽度趋近无穷时，它们共同收敛于高斯过程，并通过一种线性一阶常微分方程描述了在所谓鲁棒训练下的多层感知机演化，该方程由一种神经切向核的变体决定。实验证明了理论断言与宽有限网络的相关性，并通过核回归解析研究雅可比矩阵正则化的性质。

Dec, 2023

激活函数的不激活：神经网络解释的合理理论

本文提出了关于神经网络被认为具有高维空间模型但其空间的定义不够清晰的一个合理解释，即通过激活函数的作用将低维线性空间映射为无限维的高维空间，称为超空间。这种空间中的每个神经元节点通过激活层实际上是一个无限次幂的多项式，而训练神经网络可以至少简化为求解非线性方程组。

May, 2023

深度网络中的特征学习与泛化及正交权重

完全连接的深度神经网络，其权重从独立的高斯分布初始化，可以调整到临界状态，阻止信号在网络中传播时呈指数增长或衰减。然而，这种网络仍然会表现出与网络深度线性增长的波动，这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重，其相应的预激活波动与深度无关，以逆宽度为导数阶主导。此外，我们通过数值实验表明，初始化时在逆宽度方向上控制可观测量的演变的神经切向核（NTK）及其后代涉及的相关者的饱和深度约为 20，而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时，降低了整体噪声，从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来，我们提供了一些实验上的证明。

Oct, 2023

梯度下降法在深度非线性网络中导致权重与经验 NTK 之间的对齐

神经网络从输入 - 标签对中提取统计数据的机制是监督学习中最重要的未解决问题之一。我们通过解释神经特征假设（NFA）的出现来揭示了这种关联的原因，并且提出了一种简单的干预方法来提高 NFA 关联性，从而显著改善学习到的特征的质量。

Feb, 2024