深度学习的泛化界限
通过优化 PAC-Bayes 边界,我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限,并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。
Mar, 2017
该研究旨在提供信息论概括界限及其与 PAC-Bayes 的关联的全面介绍,为最近的发展提供基础,广泛面向对概括和理论机器学习感兴趣的研究人员。
Sep, 2023
本文提出了从在线学习的角度推导统计学习算法的泛化界限的新框架,建立在线学习算法与统计学习算法之间的联系,通过构造一种在线学习游戏来实现该框架并得到多种泛化保证。
May, 2023
我们从 PAC-Bayesian 的角度提出了数据相关的均匀泛化界,通过将训练算法输出的数据相关假设集应用于随机集的严格方法,我们证明了数据相关的界,适用于多种情境,并将此方法应用于基于分形维度的泛化界和连续 Langevin 动力学以及随机梯度 Langevin 动力学的轨迹上,这些结果为噪声算法的泛化特性提供了新的信息。
Apr, 2024
该研究利用分解的 PAC-Bayes 边界框架得出一个可适配任意复杂度度量的一般泛化边界,其中关键步骤是考虑一系列常用的分布:Gibbs 分布。该边界在概率上同时适用于假设和学习样本,允许复杂度根据泛化差距进行调整,以适应假设类和任务。
Feb, 2024
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
采用信息理论的视角探索深度神经网络在有监督分类中的理论基础,分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用,研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响,并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。
Jun, 2024
这篇论文简要介绍了现有的 PAC-Bayesian 理论,重点关注三种泛化界限及其应用,可以有效地处理规则参数及提供训练保障。
Jul, 2013