深度神经网络的好处

Feb, 2016

Benefits of depth in neural networks

Matus Telgarsky

TL;DR研究证明利用半代数节点的神经网络比常规 ReLU 节点的神经网络、带 ReLU 和最大化节点的卷积神经网络、乘积求和网络、以及提升的决策树，需要更少的层数和节点才能实现模拟函数。

Abstract

For any positive integer $k$, there exist neural networks with $\Theta(k^3)$ layers, $\Theta(1)$ nodes per layer, and $\Theta(1)$ distinct parameters which can not be approximated by networks with $\mathcal{O}(k)$ layers unless they are exponentially large --- they must possess $\Omega

neural networks semi-algebraic gates depth relu gates boosted decision trees

发现论文，激发创造

前馈神经网络的深度优势

研究发现，对于几乎所有已知的激活函数类型，存在简单的（大致上是径向的）函数在 $ eals^d$ 上，可由小型三层前馈神经网络表达，但无法用任何二层网络近似到特定常数精度以上，除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升，即使只增加了 1 层，其价值也可以是指数级别。此外，相比于布尔函数相关研究，该结果需要更少的假设，并且证明技巧和构造方法非常不同。

Dec, 2015

深度前馈网络的表征优势

本研究通过标记为正整数 $k$ 的一族分类问题，演示了深度网络和递归网络优于浅层网络的证明。通过使用 ReLU 非线性激活函数，仅具有输入和输出节点的深层网络可以达到零误差。

Sep, 2015

深度网络表达自然函数的能力

证明深度神经网络可以有效逼近多元多项式，但当只有一个隐藏层时，所需的神经元数量呈指数级增长；另一方面，增加隐藏层数量从 1 到 k 时，所需的神经元数量的增长速度是随着 n^(1/k) 对数增长，暗示了实用的表达所需的最小层数仅对 n 进行对数级增长。

May, 2017

ReLU 门深度神经网络在布尔输入上的下界

该研究借助 ReLU 挖掘深度学习的奥秘，以布尔函数为背景，考察了 ReLU 网络深度对模型大小的影响，并提出一种随机限制的方法来验证 LTF-OF-RELU 电路的最优性以及 ReLU 深度网络的难以压缩性，并展示出一种 Sum-of-ReLU-of-ReLU 函数实现的不可能性。

Nov, 2017

关于 ReLU 神经网络的深度下界

本研究使用混合整数优化、多面体理论、热带几何等技术探究神经网络单隐藏层能否学习到所有函数的普适逼近定理，为可表示函数的类提供了数学支持。同时，解决了 Wang 和 Sun (2005) 关于分段线性函数的一项猜想，并提出了表示具有对数深度函数所需神经网络的上限。

May, 2021

深度神经网络用于函数逼近的原因？

研究了深度神经网络与浅层网络的比较，发现对于大部分分段光滑函数，相对于浅层网络，深度神经网络可以使用更少的神经元来实现相同的函数逼近程度。

Oct, 2016

深度线性神经网络优化中证明宽度的重要性

证明全连接线性神经网络每个隐藏层的宽度大于 $\tilde\Omega (L \cdot r \cdot d_{\mathrm {out}} \cdot \kappa^3)$ 时，高斯随机初始化的梯度下降算法会以线性速率收敛到全局最小值，但窄层深度线性神经网络需要 $\exp\left (\Omega\left (L\right)\right)$ 操作时间，这表明宽层对于优化深度模型是必要的。

Jan, 2019

深度神经网络的函数逼近

利用聚合函数表达的子函数描述构成的有向无环图，深度网络比浅层网络更好地逼近这些函数，因为深度网络可以被设计成具有相同的组合结构，而浅层网络无法利用这一知识，组合性的祝福缓解了维数灾难，而称为良好误差传播的定理允许通过选择适当的范数、平滑度等将有关浅层网络的定理推广到有关深层网络的定理。我们在三个环境中说明了这一点，其中每个通道在深层网络中计算球面多项式、非平滑 ReLU 网络或与 ReLU 网络密切相关的另一种区域函数网络。

May, 2019

神经网络的深度分离

研究表明，具有指数级有界权重的 poly-size 深度二神经网络不能逼近无法由低次多项式逼近的函数，然而，这些函数可以通过 poly-size 深度三网络逼近，并从均匀分布的角度阐明了深度二和深度三网络之间的区别。

Feb, 2017

近似最大值需要多少个神经元？

我们研究了神经网络在逼近连续分布下基于 $L_2$ 范数、使用 ReLU 激活函数的最大函数时所需的大小，提供了对逼近所需宽度的新的上下界，建立了深度 2 和 3、深度 3 和 5 网络之间的新深度分界，并且通过在广泛使用的 max 函数上提供了深度 2 网络逼近最大函数所需神经元数量的紧密界限，与先前以特殊构建或病态函数和分布为基础的结果相比，我们的下界具有潜在的广泛应用价值。

Jul, 2023