前馈神经网络的深度优势

Dec, 2015

The Power of Depth for Feedforward Neural Networks

Ronen Eldan, Ohad Shamir

TL;DR研究发现，对于几乎所有已知的激活函数类型，存在简单的（大致上是径向的）函数在 $ eals^d$ 上，可由小型三层前馈神经网络表达，但无法用任何二层网络近似到特定常数精度以上，除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升，即使只增加了 1 层，其价值也可以是指数级别。此外，相比于布尔函数相关研究，该结果需要更少的假设，并且证明技巧和构造方法非常不同。

Abstract

We show that there is a simple (approximately radial) function on $\reals^d$, expressible by a small 3-layer feedforward neural networks, which cannot be approximated by any 2-layer network, to more than a certain constant accuracy, unless its →

neural networks depth width activation functions approximation

发现论文，激发创造

神经网络中逼近自然函数的深度 - 宽度权衡

本文提供了一些新的基于深度的前馈神经网络分离结果，证明了各种类型的简单自然函数可以更好地用深层网络逼近比更浅的更大的网络，这包括指示球和椭圆体的指示器，$L_1$ 范数下径向非线性函数，以及平滑的非线性函数。我们还展示了这些差距的实验观察结果：当训练神经网络学习一个单位球的指示器时，增加深度比增加宽度更容易收敛学习。

Oct, 2016

神经网络的表达能力：基于宽度的视角

本文研究神经网络的宽度对其表达能力的影响，证明了 width-$(n+4)$ ReLU 神经网络是一种通用逼近器，同时存在一些无法用宽度为 $n$ 的神经网络进行逼近的函数，表现出相变现象，结果展示了深度对 ReLU 网络的表达能力比宽度更为有效。

Sep, 2017

使用有界宽度和 ReLU 激活的深度神经网络实现通用函数逼近

本文主要研究具有 ReLU 激活和有限宽度的神经网络的深度表达能力，重点探讨了通过这种网络对连续函数进行逼近的最小宽度和所需深度的问题，最终得出了使用宽度为 $d+3$ 的 ReLU 网络可以以任意精度逼近 $d$ 维空间上的任意标量连续函数的深度估计结论。

Aug, 2017

用最小宽度的 ReLU 网络逼近连续函数

研究了 ReLU 激活的深度前馈神经网络的表达能力问题，得出结论：使用该网络结构可以以任意精度逼近任意 $d_{in}$ 维的连续实值函数，需要的最小宽度为 $d_{in}+1$，而一般深度和宽度都受限时，则只能表达并逼近有限的函数集。最后提出任何连续函数都可以通过宽度为 $d_{in}+d_{out}$ 的网络逼近，且该逼近的确切程度与函数的连续性有关。

Oct, 2017

深度神经网络的好处

研究证明利用半代数节点的神经网络比常规 ReLU 节点的神经网络、带 ReLU 和最大化节点的卷积神经网络、乘积求和网络、以及提升的决策树，需要更少的层数和节点才能实现模拟函数。

Feb, 2016

神经网络：深度、浅层，还是中间？

我们对用具有宽度 W、深度 l 和 Lipschitz 激活函数的前馈神经网络的输出来逼近某个 Banach 空间中的紧致子集的误差给出了下界估计。我们证明，除了神经网络，只有当深度 l 趋于无穷大时，才有可能得到比熵数更好的速率，而如果我们固定深度并使宽度 W 趋于无穷大则无法获益。

Oct, 2023

关于 ReLU 网络的最优逼近速率及其宽度和深度的影响

研究如何使用深层前馈神经网络以最优近似方式处理 Holder 连续函数和 Lipschitz 连续函数，并验证 ReLU 网络在宽度和深度上的优越性，同时得出近似速率达到最优的结论。

Feb, 2021

神经网络的深度分离

研究表明，具有指数级有界权重的 poly-size 深度二神经网络不能逼近无法由低次多项式逼近的函数，然而，这些函数可以通过 poly-size 深度三网络逼近，并从均匀分布的角度阐明了深度二和深度三网络之间的区别。

Feb, 2017

大多数激活函数可在没有过度深度的情况下赢得彩票

深度神经网络训练中的强引理假设提出了剪枝的潜力，在 ReLU 激活函数网络中，通过从随机初始化的神经网络的子网络近似目标网络，可以用宽度呈对数比例增加、深度双倍的神经网络表示目标函数，文中证明可以实现深度加 1 的神经网络，预期可以在常用深度找到彩票票，且只需要对数超参数化。

May, 2022

深度神经网络的函数逼近

利用聚合函数表达的子函数描述构成的有向无环图，深度网络比浅层网络更好地逼近这些函数，因为深度网络可以被设计成具有相同的组合结构，而浅层网络无法利用这一知识，组合性的祝福缓解了维数灾难，而称为良好误差传播的定理允许通过选择适当的范数、平滑度等将有关浅层网络的定理推广到有关深层网络的定理。我们在三个环境中说明了这一点，其中每个通道在深层网络中计算球面多项式、非平滑 ReLU 网络或与 ReLU 网络密切相关的另一种区域函数网络。

May, 2019