通过耦合初始化限制神经网络的宽度 -- 一种最坏情况分析
利用小初始化进行梯度流训练的研究,研究了两层 ReLU 网络在二元分类问题中的训练。首层神经元在早期对齐阶段尝试与正或负数据对齐,其方向动态分析得出了神经元达到良好对齐所需的时间上界。在对齐阶段后,损失函数以 1/t 速率收敛到零,首层权重矩阵近似低秩。通过对 MNIST 数据集进行实验验证了理论发现。
Jul, 2023
过度参数化和随机化机器学习算法对其训练数据的信息泄露有何影响,通过解析分析我们得出了模型分布间的 KL 散度的隐私界限,并研究其对全连接神经网络的初始化、宽度和深度的依赖性。我们发现,这个 KL 隐私界限很大程度上由训练过程中的模型参数相对于期望梯度范数决定。我们的分析表明,对于线性化网络的特殊设定,梯度范数(从而隐私损失的升级)直接与初始化分布的每层方差相关联。利用这一分析,我们证明了在特定初始化(LeCun 和 Xavier)下随着深度的增加,隐私界限提高,而在其他初始化(He 和 NTK)下随深度的增加,隐私界限降低。我们的工作揭示了隐私与深度之间的复杂相互作用,这取决于所选的初始化分布。我们进一步证明了在固定 KL 隐私预算下的过度经验风险界限,并展示了隐私效用权衡与深度之间的相互作用同样受到初始化方式的影响。
Oct, 2023
该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化,通过对相关内核的特性进行追踪,提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。
Jan, 2019
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论,提供了一个分析框架,允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。
Nov, 2021
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的 SGD 动态。
Feb, 2019
在两种模型下,我们使用二层神经网络带有二次激活函数进行监督学习,证明了当神经元数量小于特征向量维度时,在随机特征和神经切线等三种不同的学习方案中,性能存在无限制的差距。当神经元数量大于特征向量维度时,这个问题变得容易,神经切线和完全训练的神经网络都能实现零风险。
Jun, 2019
完全连接的深度神经网络,其权重从独立的高斯分布初始化,可以调整到临界状态,阻止信号在网络中传播时呈指数增长或衰减。然而,这种网络仍然会表现出与网络深度线性增长的波动,这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重,其相应的预激活波动与深度无关,以逆宽度为导数阶主导。此外,我们通过数值实验表明,初始化时在逆宽度方向上控制可观测量的演变的神经切向核(NTK)及其后代涉及的相关者的饱和深度约为 20,而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时,降低了整体噪声,从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来,我们提供了一些实验上的证明。
Oct, 2023