深度学习中的鲁棒性：好（宽度），坏（深度）和丑陋（初始化）

Sep, 2022

深度学习中的鲁棒性：好（宽度），坏（深度）和丑陋（初始化）

Robustness in deep learning: The good (width), the bad (depth), and the ugly (initialization)

Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher

TL;DR在深度神经网络中研究了平均鲁棒性概念，研究了宽度、深度和训练模式对其影响，并且针对不同的初始化方法证明了有助于和有害于鲁棒性的特性。

Abstract

We study the average robustness notion in deep neural networks in (selected) wide and narrow, deep and shallow, as well as lazy and non-lazy training settings. We prove that in the under-parameterized setting,

deep neural networks average robustness width depth training regime

发现论文，激发创造

神经切向核的有限深度和宽度修正

我们证明了在具有有限深度和宽度的随机初始化的 ReLU 网络中，神经切向核（NTK）的平均值和方差的精确缩放。

Sep, 2019

深度和宽度对深度学习局部最优解的影响

本文通过分析深度和宽度对局部极小值质量的影响，论证了在没有强烈的过参数化和简化假设的情况下，深度神经网络的局部极小值质量随着深度和宽度的增加而趋向于改善，并且在带有局部引导结构的深层非线性神经网络模型中，其局部最小值的值在理论上被证明不会比相应的经典机器学习模型的全局最优值差。

Nov, 2018

所有层都是平等的吗？

本文研究过参数化深度神经网络的层级功能结构和行为，通过实验重置权重值并从层的鲁棒性与性能下降角度分析了网络层级的异质性，提供了理论分析证明 “健壮” 与 “关键” 层的存在，并呼吁关注模型的 “平坦性” 和 “稳健性” 以实现深度模型的广义化。

Feb, 2019

懒人（NTK）和富人（μP）的领域：温和教程

现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导，解释了以下事实：为了有效地训练宽网络，在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性：宽网络至少以类似核机器的方式进行懒惰训练，最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度，将最近的研究结果综合为一个连贯的整体，并提供支持我们的论点的实证证据。通过这样做，我们希望进一步研究丰富性尺度，因为它可能是发展实际深度神经网络特征学习的科学理论的关键。

Apr, 2024

广而深的神经网络是否学习相同的内容？揭示不同宽度和深度下神经网络表示的变化

本篇研究通过探究深度和宽度对模型隐藏表示的影响，发现一个特征块结构，这个结构是相对于训练集大小而言容量较大（更宽 / 更深）的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响，其代表性的块结构对于每个模型来说是独一无二的。最后，我们分析了不同模型体系结构的输出预测，发现即使整体准确率相似，宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。

Oct, 2020

探索对抗鲁棒深度神经网络的架构因素

本文针对深度神经网络（DNN）易受到对抗攻击的问题，通过对网络结构的宽度和深度进行综合研究，发现更高的模型容量并不一定有助于对抗攻击抵抗力的提高，最后一个阶段降低容量实际上可以提高对抗攻击的鲁棒性，同样的参数预算下，存在一种最佳的结构以提高对抗攻击的鲁棒性，并提供了理论分析，这些架构可帮助进行设计更具对抗攻击鲁棒性的 DNN。

Oct, 2021

网络宽度对随机梯度下降和泛化效果的影响：实证研究

通过超参寻优与一系列不同的神经网络模型，我们探究了过度参数化情况下随机梯度下降最终调整到的参数状态，并发现优化算法的最优超参数取决于一项被规范化的噪声参数，其与网络宽度等因素有关，这对各种类型的神经网络均成立，对于 ResNets 这样的网络同样存在相似的趋势。

May, 2019

更宽的神经网络是否真正有助于对抗鲁棒性？

本文研究神经网络宽度对模型稳健性的影响，发现模型稳健性与天然精度和扰动稳定性的权衡密切相关，虽然更宽的网络可以实现更好的天然精度，但也可能导致更差的扰动稳定性从而降低模型稳健性。因此，我们提出了自适应扩大正则化参数 lambda 的 “Width Adjusted Regularization”（WAR）方法，可以在节省调整时间的同时发挥更宽模型的稳健潜力。

Oct, 2020

深度神经网络的深度：理论视角

通过研究深度神经网络中的余量界限，我们得出结论，在受限制的隐藏单元数量下，增加深度并不总是好的，因为它具有积极和消极的影响。我们发现，采用基于边缘的惩罚项来降低经验余量错误而不增加深度，可以显著提高测试性能。

Jun, 2015

大偏差下宽神经网络的收敛性和泛化性

该研究通过神经切向核（NTK）模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络，其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活，从而实现快速训练。结果表明，在稀疏化后，网络可以实现与密集网络一样快的收敛速度。其次，提供了宽度稀疏性的相关性，给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后，研究了极限 NTK 的最小特征值，发现可以使用可训练偏置来提高推广性。

Jan, 2023