利用分数布朗运动得出的深度神经网络的轨迹相关的泛化界
本文提出了一种使用 Feller 过程来逼近 SGD 轨迹以及使用 Hausdorff 维度控制相关广义误差的学习理论框架,同时提出了使用 Feller 过程的尾部指数作为 “容量度量” 的概念,可用于估计广义误差,并且与参数数量不同于现有文献中的容量度量。
Jun, 2020
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的 PAC-Bayesian 设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。
Dec, 2023
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
本文旨在探讨深度神经网络(DNNs)的学习轨迹与其在广泛使用的梯度下降和随机梯度下降算法优化时的相应泛化能力之间的关系。作者构建了线性逼近函数以建立轨迹信息模型,并基于其提出一种新的、基于更丰富轨迹信息的泛化界限。实验结果表明,所提出的方法能够有效地捕捉到不同训练步骤、学习率和标签噪声水平下的泛化趋势。
Apr, 2023
通过优化 PAC-Bayes 边界,我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限,并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。
Mar, 2017
我们在非凸设置下,使用均匀耗散和平滑条件对带有标签噪声的随机梯度下降(SGD)进行了泛化误差界限的研究。在合适的半度量选择下,我们建立了依赖于参数维度 $d$ 的标签噪声随机梯度流的 Wasserstein 距离压缩。利用算法稳定性框架,我们推导出了具有恒定学习率的离散化算法的时间独立泛化误差界限。我们所实现的误差界限与 $d$ 的多项式和 $n^{-2/3}$ 的速率成多项式比例,其中 $n$ 是样本大小。这个速率比在类似条件下使用参数无关高斯噪声的随机梯度朗之万动力学(SGLD)的已知最优速率 $n^{-1/2}$ 更好。我们的分析提供了关于标签噪声影响的定量洞察。
Nov, 2023
本文研究了过参数化的深层网络使用随机梯度下降法(SGD)能够良好推广的能力,提出了一种 PAC-Bayesian 框架,利用这种能力为原始网络提供界限,同时不会受到权重矩阵谱范数乘积的影响。
May, 2019
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020