深度神经网络的相关数据的广义上界
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
我们使用在线到批次转换范例,给出了从依赖数据源中获取的样本训练的统计学习算法的泛化界限,包括期望值和高概率。我们表明,统计学习器在依赖数据环境中的泛化误差等同于独立同分布环境中的泛化误差,除了一个依赖于底层混合随机过程的衰减速率且与统计学习器复杂性无关的项。我们的证明技巧涉及基于 Wasserstein 距离定义在线学习算法稳定性的新概念,并利用基于依赖随机变量的 “近似鞅” 浓度界限,得出了统计学习算法在依赖数据上的泛化误差的适当上界。
May, 2024
通过探究 SGD 的轨迹依赖假设集,建立基于 Hausdorff 维数的 Rademacher 复杂度,并通过假设集稳定性推导具有预测力的 DNN 的新型泛化边界。
Jun, 2022
近期的深度学习研究在有界的损失函数或 (亚) 高斯或有界输入的情况下建立了深度神经网络估计器的一些理论性质。本文考虑了从弱相关观测中进行鲁棒深度学习,涉及无界的损失函数和无界的输入 / 输出。仅假设输出变量具有有限的 r 阶矩,其中 r>1。在强混合和 ψ- 弱相关假设的情况下,建立了深度神经网络估计器的期望超额风险的非渐近界限。我们推导出了这些界限与 r 之间的关系,并且当数据具有任意阶的矩 (即 r =∞) 时,收敛速度接近于一些著名结果。当目标预测函数属于具有足够大平滑指数的 H"older 平滑函数类时,期望超额风险的速率对于指数强混合数据接近于或与使用独立同分布样本获得的速率相同。我们考虑了鲁棒非参数回归和鲁棒非参数自回归的应用。对于具有重尾误差的模型的模拟研究表明,具有绝对损失和 Huber 损失函数的鲁棒估计器优于最小二乘法。
May, 2024
通过优化 PAC-Bayes 边界,我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限,并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。
Mar, 2017
基于无限宽度神经网络的高斯过程,并结合内核和推理方法,构建了一个场论的形式体系,研究了无限宽度网络的泛化性质,并从输入数据的统计性质得到了泛化性质的提取。
Jul, 2023
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
我们通过引入一种新的神经网络族的 Lipschitz 属性的表征,建立了一种基于边际的数据相关的广泛深度神经网络泛化误差界限,将其与深度、宽度以及网络的雅可比矩阵联系起来。和现有的结果相比,我们实现了明显更紧的泛化下界,并且还表明,对于损失有界的情况,可以进一步改善泛化下界。除了一般的前馈深度神经网络外,我们的结果可以应用于推导流行的体系结构,包括卷积神经网络和残差网络。在实现与上一项艺术相同的泛化误差的同时,我们的误差允许选择更大的权重矩阵参数空间,从而为神经网络提供更强的表达能力。其中还提供了数值评估来支持我们的理论。
Jun, 2018
在这篇论文中,我们推导了一个 PAC-Bayes 界限,用于一类特殊的离散时间非线性动力系统的监督时间序列设置。这个类别包括稳定的递归神经网络(RNN),而这项工作的动机就是应用于 RNN。我们在允许的模型上施加一些稳定性约束,这里的稳定性是以动力系统的概念来理解的。对于 RNN,这些稳定性条件可以表示为关于权重的条件。我们假设所涉及的过程在本质上是有界的,并且损失函数是利普希茨的。所提出的对于泛化差距的界限依赖于数据分布的混合系数和数据的本质上最大值。此外,随着数据集大小的增加,这个界限收敛于零。在这篇论文中,我们 1)正式化了学习问题,2)为这类系统推导了一个 PAC-Bayesian 误差界限,3)讨论了这个误差界限的各种结果,以及 4)展示了一个说明性例子,并讨论了计算所提出的界限的方法。与其他可用的界限不同,这个推导的界限适用于非独立同分布的数据(时序数据),并且它不随 RNN 的步骤数增长。
Dec, 2023