更宽的网络学习更好的特征
本篇研究通过探究深度和宽度对模型隐藏表示的影响,发现一个特征块结构,这个结构是相对于训练集大小而言容量较大(更宽 / 更深)的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响,其代表性的块结构对于每个模型来说是独一无二的。最后,我们分析了不同模型体系结构的输出预测,发现即使整体准确率相似,宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。
Oct, 2020
本文证明了从窄网络到宽网络的过渡存在一个相变,窄网络存在次优盆地(sub-optimal basins),而宽网络不存在。具体地,采用连续激活函数的一类宽网络损失曲面没有亚优盆地,但是对于宽度低于阈值的大类网络,存在不是全局最小值而是严格局部最小值的情况。
Dec, 2018
本论文研究了深度神经网络中神经元的广泛性与特定性,发现转移特征会受到特化高层神经元和合作适应神经元之间优化困难性的限制,转移特征的适用性随着目标任务与基础任务的差距而降低,但即使从远任务中转移特征,也比使用随机特征好,从几乎任意数量的层中初始化网络都可以提高广义化的效果,即使经过微调后能够持续。
Nov, 2014
通过保持参数数量不变增加模型宽度来探究神经网络性能的影响,结论是网络宽度与模型性能作用显著,而参数数量虽不可忽视,但其次要性要保证可训练性,同时我们在高斯过程核的框架下分析这些模型并发现模型初始点有限宽度核与无限宽度核之间的距离对于模型性能的预示作用。
Oct, 2020
本文研究神经网络的宽度对其表达能力的影响,证明了 width-$(n+4)$ ReLU 神经网络是一种通用逼近器,同时存在一些无法用宽度为 $n$ 的神经网络进行逼近的函数,表现出相变现象,结果展示了深度对 ReLU 网络的表达能力比宽度更为有效。
Sep, 2017
深度神经网络在各种环境中表现出前沿的性能,但在按顺序训练新任务时往往会出现 “灾难性遗忘”。本研究设计了一个框架来分析连续学习理论,并证明网络宽度与遗忘之间存在直接关系。具体而言,我们证明增加网络宽度以减少遗忘产生递减的效果,我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测,清晰地观察到这种递减效果。
Mar, 2024
通过将大型神经网络分解成多个小型网络,并通过共同训练和学习来提高网络的多样性,小型网络可以在不增加参数和 FLOPs 的情况下实现更好的集成性能和更快的推理速度。我们在八个不同的神经结构和常见基准测试中验证了该论点,代码可在 https://github.com/FreeformRobotics/Divide-and-Co-training 中获得。
Nov, 2020
研究表明,深度学习中的 “宽度” 同样重要,特别是激活函数包含泄漏整流线性单元的金字塔结构前馈神经网络可以保证产生连通的决策区域,这对神经网络的构建和分类器的对抗性攻击有着重要的意义。
Feb, 2018