关于使用随机梯度下降训练的模型的泛化:信息论界限和含义
通过优化 PAC-Bayes 边界,我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限,并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。
Mar, 2017
通过学习两层的过参数化神经网络在使用Leaky ReLU激活函数的情况下,为SGD进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型(NTRF)来限制泛化误差,并建立了神经切向内核(NTK)的联系。
May, 2019
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
现有的监督学习泛化理论通常采用整体方法,并提供整个数据分布的期望泛化界限,这暗示了模型对所有类别的泛化情况相似。然而,在实践中,不同类别之间的泛化性能存在显著差异,这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题,该误差量化了每个个体类别的泛化性能。我们使用KL散度推导出了一种新的信息论界限来度量类别泛化误差,并进一步利用条件互信息(CMI)获得了几个更紧的界限,这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外,我们还展示了本文所开发的理论工具能够应用在其他多个领域。
Jan, 2024
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的Kullback-Leibler(KL)散度或1-Wasserstein距离导出了两个层次性的泛化误差界限。KL散度界限随着层索引的增加而收缩,而Wasserstein界限暗示了存在一个层作为泛化漏斗,它达到了最小的1-Wasserstein距离。在具有线性DNN的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化DNN模型(Dropout,DropConnect和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和Gibbs算法的DNNs表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024