张量程序 I：任何架构的宽前馈或递归神经网络都是高斯过程

Oct, 2019

张量程序 I：任何架构的宽前馈或递归神经网络都是高斯过程

Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes

Greg Yang

TL;DR本文通过引入一种表达神经网络计算的语言，证明了具有随机权重和偏置的宽深度神经网络是高斯过程。结果表明，这种神经网络 - 高斯过程对应关系即使对于所有现代前馈或递归神经网络都适用。

Abstract

Wide neural networks with random weights and biases are Gaussian processes, as originally observed by Neal (1995) and more recently by Lee et al. (2018) and Matthews et al. (2018) for deep fully-connected networks, as well as by Novak et al. (2019) and Garriga-Alonso et al. (2019) for deep convolutional networks. We show that this →

neural network gaussian process feedforward recurrent tensor program

发现论文，激发创造

宽深神经网络中的高斯过程行为

本研究研究了深度神经网络和高斯过程之间的联系，指出在广泛的条件下，随着体系结构越来越宽，隐含的随机函数在分布上会趋于高斯过程，并使用最大平均偏差评估收敛速率。最后，将贝叶斯深度网络与高斯过程进行比较，并从文献中回顾了非高斯替代模型。

Apr, 2018

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的 SGD 动态。

Feb, 2019

神经网络高斯过程的比例混合

本文提出了一种基于高斯随机变量尺度混合的 NNGPs 模型，并利用先验分布在最后一层参数上引入尺度先验，使得任何架构的无穷宽神经网络都能转化为一种更丰富的随机过程，通过实验进一步证明了该模型在回归和分类任务方面的可行性和鲁棒性。

Jul, 2021

深度神经网络作为高斯过程

本文研究无限宽深层神经网络和高斯过程的等价性，提出一种计算高斯过程协方差函数的有效方法，并使用该方法在 MNIST 和 CIFAR-10 上进行了贝叶斯推断，在网络宽度增加时，训练神经网络的准确率和 GP 预测的不确定性分别增加，而有限宽度训练网络越接近 GP，测试性能越好，GP 预测通常优于有限宽度网络的预测，最后将这些 GP 的性能与随机神经网络的信号传播理论相联系。

Nov, 2017

无限关注：NNGP 和 NTK 用于深度注意力网络

通过 NNs 和 GPs 之间的等价性，研究多头关注层体系结构并评估其在 GP 中的应用，通过对注意力内核的评估，提出了改进的注意力机制，并介绍了新特性，将 NNGP / NTK 模型应用于变长序列。

Jun, 2020

高斯过程对神经网络的非渐进逼近

本文研究了随机初始化的宽神经网络能否通过高斯过程来近似。我们在一个无限维函数空间中建立明确的收敛速率，说明了两种不同的情况：同时激活函数的次数和函数的平滑度会决定高斯过程的收敛速度。

Feb, 2021

随机 ReLU 神经网络作为非高斯过程

我们研究了具有随机初始化参数和修正线性单元激活函数的大类浅层神经网络，并证明了这些随机神经网络是良定义的非高斯过程，由脉冲白噪声（随机狄拉克测度的组合）驱动的随机微分方程的解。这些过程由权重和偏置的分布以及输入域中每个有界区域中激活阈值的密度所参数化。我们证明这些过程是等向的，同时具有 Hurst 指数为 3/2 的广义自相似性，并导出了它们的自协方差函数的一个非常简单的闭式表达式。我们的结果从非渐近的视角来看与先前的工作有本质不同：输入域中每个有界区域（即宽度）的神经元数量本身是一个具有泊松分布的随机变量，并且其均值与密度参数成比例。最后，我们证明在适当的假设下，当期望宽度趋于无穷大时，这些过程除了能收敛到高斯过程外，还能收敛到依赖于权重分布的非高斯过程。我们的渐近结果提供了一种新的方法来看待几个经典结果（宽网络收敛到高斯过程）以及一些新结果（宽网络可以收敛到非高斯过程）。

May, 2024

深度卷积网络作为浅层高斯过程

通过适当的神经网络权重和偏差的先验，证明（残差）卷积神经网络的输出在无限数量的卷积滤波器的极限下是高斯过程（GP），扩展了密集网络的类似结果。可以精确地计算 CNN 的等效核，不同于 “深度核” 只有少量的参数：只有原始 CNN 的超参数。与每层只有一个滤波器的原始 CNN 相比，对成对图像评估内核的成本类似于一次正向传递，这个内核等效于 32 层 ResNet，在 MNIST 上获得了 0.84％的分类错误，是具有可比数量的参数的 GPs 的新记录。

Aug, 2018

神经过程

本文介绍了神经过程（NP）这一类神经网络模型，它拥有高效的计算能力、灵活的概率模型，可以适应新的数据，并能够估计其预测的不确定性。同时，神经过程也能像高斯过程一样对函数进行概率建模，具有延迟更新的能力。我们探讨了神经过程在回归和优化等任务中的表现，并与文献中的相关模型进行了对比。

Jul, 2018

神经网络高斯过程的有限尺寸修正

研究使用高斯过程模拟神经网络的兴趣越来越浓厚，本研究针对具有单隐藏层的大规模有限完全连接网络展示了输出在初始化时的高斯分布，同时发现该扰动的尺度与神经网络单元的数量成反比例关系，高阶项逐渐衰减，进而回复到 Edgeworth 扩展的形式；最后观察到理解该扰动在训练期间如何改变，将有助于展示高斯过程框架在模拟神经网络行为时的适用范围。

Aug, 2019