- 通过图算法理解 Transformer 推理能力
Transformer 自动缩放机制、算法推理能力的研究(深度、宽度、额外标记数)及在图推理任务中的优秀表现。
- 深度和宽度对 Transformer 语言模型泛化的影响
通过对 transformers 进行实验,我们发现深度模型相比较较浅模型能更好地进行组成性泛化,并得出更深的模型在语言建模性能上表现更好的结论。
- 神经网络:深度、浅层,还是中间?
我们对用具有宽度 W、深度 l 和 Lipschitz 激活函数的前馈神经网络的输出来逼近某个 Banach 空间中的紧致子集的误差给出了下界估计。我们证明,除了神经网络,只有当深度 l 趋于无穷大时,才有可能得到比熵数更好的速率,而如果我 - 特征学习网络在现实规模下的宽度一致性
研究神经网络的宽度对特征学习动态的影响,探究网络结构,内部表示,预激活分布,稳定现象的一致性,以及相应的有限宽度偏差和频谱视角。
- 使用复数深窄神经网络的通用逼近
本文研究了有界宽度和任意深度的复值神经网络的普适性,给出了激活函数对于网络是否能够进行任意精度的连续函数逼近的充分条件,并证明进行逼近所需的最小宽度。
- 深度学习中的鲁棒性:好(宽度),坏(深度)和丑陋(初始化)
在深度神经网络中研究了平均鲁棒性概念,研究了宽度、深度和训练模式对其影响,并且针对不同的初始化方法证明了有助于和有害于鲁棒性的特性。
- 宽与深:自监督语音模型任务不可知知识蒸馏的学生网络架构分析
本文通过实证研究发现在深度自监督学习中保持一定的深度可以提高各种面向内容的任务的准确性,同时保持一定的宽度可以提高多个面向说话人的任务的性能。基于这些观察,我们为 SUPERB 识别出了一个具有更好性能的压缩模型。
- 光滑函数的深度网络逼近
本文研究了深度修正线性单元网络关于宽度和深度同时逼近平滑函数的最优逼近误差特性,并且证明了多元多项式可以被宽度为 O(N)和深度为 O(L)的深 ReLUNetwork 逼近,而且证明了具有 O(N lnN)宽度和 O(L lnL)深度的深 - MM神经切向核的有限深度和宽度修正
我们证明了在具有有限深度和宽度的随机初始化的 ReLU 网络中,神经切向核(NTK)的平均值和方差的精确缩放。
- ICML神经网络过度参数化对梯度混乱和随机梯度下降的影响
本文研究神经网络架构如何影响训练速度,引入 “梯度混乱” 概念来分析。实验结果表明,增加神经网络宽度可以降低梯度混乱从而提高模型训练效率,而增加深度则会使训练效率降低。
- 深度和宽度对深度学习局部最优解的影响
本文通过分析深度和宽度对局部极小值质量的影响,论证了在没有强烈的过参数化和简化假设的情况下,深度神经网络的局部极小值质量随着深度和宽度的增加而趋向于改善,并且在带有局部引导结构的深层非线性神经网络模型中,其局部最小值的值在理论上被证明不会比 - ICML神经网络应足够宽以学习不连续的决策区域
研究表明,深度学习中的 “宽度” 同样重要,特别是激活函数包含泄漏整流线性单元的金字塔结构前馈神经网络可以保证产生连通的决策区域,这对神经网络的构建和分类器的对抗性攻击有着重要的意义。
- NIPS神经网络的表达能力:基于宽度的视角
本文研究神经网络的宽度对其表达能力的影响,证明了 width-$(n+4)$ ReLU 神经网络是一种通用逼近器,同时存在一些无法用宽度为 $n$ 的神经网络进行逼近的函数,表现出相变现象,结果展示了深度对 ReLU 网络的表达能力比宽度更 - 前馈神经网络的深度优势
研究发现,对于几乎所有已知的激活函数类型,存在简单的(大致上是径向的)函数在 $
eals^d$ 上,可由小型三层前馈神经网络表达,但无法用任何二层网络近似到特定常数精度以上,除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网