当浅层模型强时，是否更深层模型更好？

Mar, 2019

当浅层模型强时，是否更深层模型更好？

Is Deeper Better only when Shallow is Good?

Eran Malach, Shai Shalev-Shwartz

TL;DR该论文研究了深层神经网络在梯度下降最优化过程中利用深度的表达能力，证明了具有分形结构的分布可以被深层网络有效地表达，而浅层网络无法表达。论文还探讨了粗细篮子之间的平衡如何影响深度神经网络的优化过程，并推断了学习深度神经网络是否成功取决于分布是否可以被浅层网络很好地逼近的结论。

Abstract

Understanding the power of depth in feed-forward neural networks is an ongoing challenge in the field of deep learning theory. While current works account for the importance of depth for the expressive power of n

feed-forward neural networks deep learning theory gradient-based optimization process expressivity properties fractal structure

发现论文，激发创造

深化神经网络优势的理论分析

该论文提出了两个新标准，以评估深度神经网络的表达能力和计算函数，并同时比较增加层数和增加每层神经元数量对于提高模型表达能力的效果，从而增进对深度学习的理解。

Sep, 2020

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

函数学习：何时深度学习优于浅层学习

本文证明了深度（分层）网络可以近似组合函数，其准确度与浅层网络相同，但训练参数以及 VC 维度指数级地减少，并定义了一般类可扩展和平移不变算法来证明深度卷积网络的简单和自然的一组要求。

Mar, 2016

前馈神经网络的深度优势

研究发现，对于几乎所有已知的激活函数类型，存在简单的（大致上是径向的）函数在 $ eals^d$ 上，可由小型三层前馈神经网络表达，但无法用任何二层网络近似到特定常数精度以上，除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升，即使只增加了 1 层，其价值也可以是指数级别。此外，相比于布尔函数相关研究，该结果需要更少的假设，并且证明技巧和构造方法非常不同。

Dec, 2015

深度神经网络优化：超参数化隐式加速

本论文探讨深度学习模型的深度与优化之间的关系，通过对过度参数化模型的研究，发现适度的增加模型层数可以作为预处理器减轻优化量，加速模型的训练。

Feb, 2018

多层均场网络实现深度分离

本文研究深度学习理论中深度分离问题，证明了使用过参数化的神经网络能够有效地学习深度函数构造，其中该结果依赖于一种新的扩展平均场极限到多层神经网络的方法和一种损失因式分解方法。

Apr, 2023

深度神经网络的表现力

本文提出了一种新的神经网络表达性问题的方法，其中基于轨迹长度的一维路径上的输出是一种新颖的表达形式。实验得出：（1）计算的函数复杂度随深度指数增长；（2）所有权重不同，加上轨迹正则化是批标准化的一个更简单的选择，但表现相同。

Jun, 2016

神经网络中逼近、深度分离与可学习性的关联

本文主要研究深度神经网络、近似能力和可学习性之间的复杂关系，提出了必须在浅层神经网络中近似目标函数的概念，并给出了多个范例证明了深度神经网络的分离性，并结论它们即使被高效近似，也不能被高效学习。

Jan, 2021

循环神经网络的表达能力

本文证明 Tensor Train 分解的一类循环神经网络的表达能力理论上是指数级别的，与 Hierarchical Tucker 张量分解所对应的深度卷积网络相比，使用 RNN 对图像进行逐块处理可以比使用仅具有一个隐藏层的 (浅层) 卷积网络更加高效。

Nov, 2017

深度网络与浅层网络：逼近论视角

本文回顾了最近关于层级神经网络结构的研究成果，探讨了深度卷积神经网络优于浅层神经网络在函数近似问题中的表现条件。本文提出了一个新的对于相对维度的定义，该定义可以被深层网络而非浅层网络使用以显著降低近似和学习所需的复杂度。同时，本文还宣布了关于当前神经网络中使用的非平滑激活函数 - ReLU 函数以及高斯网络的新结果。

Aug, 2016