神经网络：深度、浅层，还是中间？

Oct, 2023

神经网络：深度、浅层，还是中间？

Neural networks: deep, shallow, or in between?

Guergana Petrova, Przemyslaw Wojtaszczyk

TL;DR我们对用具有宽度 W、深度 l 和 Lipschitz 激活函数的前馈神经网络的输出来逼近某个 Banach 空间中的紧致子集的误差给出了下界估计。我们证明，除了神经网络，只有当深度 l 趋于无穷大时，才有可能得到比熵数更好的速率，而如果我们固定深度并使宽度 W 趋于无穷大则无法获益。

Abstract

We give estimates from below for the error of approximation of a compact subset from a Banach space by the outputs of feed-forward neural networks with width W, →

approximation error feed-forward neural networks width depth lipschitz activation functions

发现论文，激发创造

前馈神经网络的深度优势

研究发现，对于几乎所有已知的激活函数类型，存在简单的（大致上是径向的）函数在 $ eals^d$ 上，可由小型三层前馈神经网络表达，但无法用任何二层网络近似到特定常数精度以上，除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升，即使只增加了 1 层，其价值也可以是指数级别。此外，相比于布尔函数相关研究，该结果需要更少的假设，并且证明技巧和构造方法非常不同。

Dec, 2015

神经网络中逼近自然函数的深度 - 宽度权衡

本文提供了一些新的基于深度的前馈神经网络分离结果，证明了各种类型的简单自然函数可以更好地用深层网络逼近比更浅的更大的网络，这包括指示球和椭圆体的指示器，$L_1$ 范数下径向非线性函数，以及平滑的非线性函数。我们还展示了这些差距的实验观察结果：当训练神经网络学习一个单位球的指示器时，增加深度比增加宽度更容易收敛学习。

Oct, 2016

深度神经网络用于函数逼近的原因？

研究了深度神经网络与浅层网络的比较，发现对于大部分分段光滑函数，相对于浅层网络，深度神经网络可以使用更少的神经元来实现相同的函数逼近程度。

Oct, 2016

深度神经网络的逼近空间

研究深度神经网络的表现力，将其复杂性衡量为连接数或神经元数，通过近似理论建立了逼近空间，研究 skip-connections 和非线性对逼近空间的影响，将其与 Besov 空间联系起来，发现如果深度足够，即使函数平滑度很低，也能够很好地通过神经网络逼近。

May, 2019

深度神经网络近似理论

本文通过深度神经网络的 Kolmogorov 最优化来发展其基本极限，并阐述了深度网络对于不同函数类的 Kolmogorov 最优逼近性，其提供了指数级的逼近精度，并且在逼近足够光滑的函数时，相较于有限宽深网络，有限宽深层网络需要更小的连通性。

Jan, 2019

深度 ReLU 网络的逼近误差界

研究一维 Lipschitz 函数的逼近中，深层 ReLU 网络比浅层网络更有效地逼近光滑函数，采用自适应深度 6 网络体系结构比标准浅层网络更有效。

Oct, 2016

深度网络与浅层网络：逼近论视角

本文回顾了最近关于层级神经网络结构的研究成果，探讨了深度卷积神经网络优于浅层神经网络在函数近似问题中的表现条件。本文提出了一个新的对于相对维度的定义，该定义可以被深层网络而非浅层网络使用以显著降低近似和学习所需的复杂度。同时，本文还宣布了关于当前神经网络中使用的非平滑激活函数 - ReLU 函数以及高斯网络的新结果。

Aug, 2016

神经网络学习复杂性

本文研究神经网络的理论解释，针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习，证明了对于广泛的激活函数和任何对数凹分布的输入，存在一类单隐藏层函数，其输出为和门，难以以任何精度有效地学习，这一下界对权重的微小扰动具有鲁棒性，且通过实验验证了训练误差的相变现象。

Jul, 2017

使用有界宽度和 ReLU 激活的深度神经网络实现通用函数逼近

本文主要研究具有 ReLU 激活和有限宽度的神经网络的深度表达能力，重点探讨了通过这种网络对连续函数进行逼近的最小宽度和所需深度的问题，最终得出了使用宽度为 $d+3$ 的 ReLU 网络可以以任意精度逼近 $d$ 维空间上的任意标量连续函数的深度估计结论。

Aug, 2017

ReLU 浅层神经网络的逼近速度

ReLU shallow neural networks can uniformly approximate functions from the H"older space with rates close to the optimal one in high dimensions.

Jul, 2023