嘈杂迭代算法的泛化误差界
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
利用信息论推导出监督学习算法的泛化误差的信息熵上界,能够更全面地考虑损失函数的条件,并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。
Jan, 2019
本文应用 Bayes-Stability 框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵 - SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019
本文研究嘈杂迭代算法对机器学习模型泛化性能的影响,并通过与通信和信息理论中发现的加性噪声通道的联系推导出分布相关的泛化上限,得出了对几种应用的见解,包括差分隐私随机梯度下降(DP-SGD)、联邦学习和随机梯度 Langevin 动力学(SGLD)。我们通过数字实验演示了我们的边界,表明它们可以帮助理解神经网络泛化现象的最新经验观察。
Feb, 2021
本研究提出了一种基于信息理论的泛化误差上界方法,用以控制模型的输入输出互信息,进而指导在数据适配和泛化之间寻找平衡点。在此基础上,我们探索了一些方法,包括利用相对熵或随机噪声来正则化 ERM 算法等。这些方法扩展和改进了 Russo 和 Zou 的最近工作。
May, 2017
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本文改进了 Pensia,Jog 和 Loh (2018) 开始的有噪声迭代学习算法的逐步分析,并在 Bu,Zou 和 Veeravalli (2019) 的基础上最近扩展。我们主要的贡献是通过数据相关估计显著提高了随机梯度 Langevin 动力学的互信息界限。我们的方法基于互信息的变分特性和使用基于训练样本子集的数据相关先验来预测小批量梯度。我们的方法在 Russo 和 Zou (2015)、Xu 和 Raginsky (2017) 的信息论框架内广泛适用。与其他依赖于梯度平方范数的边界相比,我们的边界项的数量级要小得多,同时可以与经验风险面的平坦度指标相关联。
Nov, 2019
本研究基于 Hellström 和 Durisi 的框架整合了几个使用随机子集的期望泛化误差界限,其中包括了 Bu 等人关于样本互信息和 Negrea 等人关于数据集的随机子集的界限。然后,我们介绍了 Steinke 和 Zakynthinou 在随机子采样模式下的新的类似于前两个界限的界限,并确定了该框架的一些限制。最后,我们将用于 Langevin Dynamics 的界线从 Haghifam 等人扩展到了随机梯度 Langevin Dynamics,并将其在具有潜在大梯度规范的损失函数中进行了改进。
Oct, 2020
我们提供了一种新的信息理论泛化界限,用于研究随机梯度 Langevin 动力学(SGLD),在平滑性和耗散性的假设下。我们的界限是独立于时间的,当样本大小增加时会衰减为零,无论迭代次数和步长是否固定。与以前的研究不同,我们通过关注 Kullback-Leibler 散度的时间演化来推导泛化错误界限,这与数据集的稳定性有关,并且是输出参数和输入数据集之间互信息的上界。此外,我们通过展示 SGLD 的损失函数是次指数的来建立了第一个信息理论的泛化界限。这种界限也是独立于时间的,并消除了现有工作中的步长依赖问题,通过将我们的分析与现有的非凸优化误差界限相结合,导致改进的超额风险界限。
Nov, 2023