统计学习的一阶方法与通用预言机的泛化误差

Jul, 2023

统计学习的一阶方法与通用预言机的泛化误差

Generalization Error of First-Order Methods for Statistical Learning with Generic Oracles

Kevin Scaman, Mathieu Even, Laurent Massoulié

TL;DR我们提供了一种新的分析框架，用于分析统计学习中基于一阶优化算法的泛化误差，当只能通过一个 oracle 提供的部分观测来获取梯度。我们的分析依赖于梯度相对于数据样本的正则性，并且允许为多个学习问题，包括监督学习、迁移学习、鲁棒学习、分布式学习和使用梯度量化的通信高效学习推导出接近配对的上下界的泛化误差。这些结果适用于平滑和强凸优化问题，以及满足 Polyak-Lojasiewicz 假设的平滑非凸优化问题。我们的上下界依赖于一个新颖的量，它扩展了条件标准差的概念，并衡量了通过访问 oracle 获取梯度的程度。因此，我们的分析为优化统计学习目标的优化提供了精确的含义，即统计学习目标的优化与其梯度估计一样困难。最后，我们证明，在标准监督学习的情况下，批梯度下降法随着批次大小的增加和热启动可以达到近似最优的泛化误差，从而激励我们在实际应用中使用这种优化方案。

Abstract

In this paper, we provide a novel framework for the analysis of generalization error of first-order optimization algorithms for statistical learn

发现论文，激发创造

非凸学习的SGLD泛化界限：两种理论视角

本文提出了两个理论，分别使用稳定性和PAC-Bayesian结果的非渐进离散时间分析，研究了Stochastic Gradient Langevin Dynamics（SGLD）在非凸目标下的泛化误差，其边界没有隐含依赖于参数的维数、规范或其他容量测量，优美地刻画了非凸设置中“快速训练保证泛化”的现象

Jul, 2017

嘈杂迭代算法的泛化误差界

本文证明了当损失函数为亚高斯函数时，基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界，此外还探究了噪声受限的迭代算法的泛化误差上界。

Jan, 2018

基于互信息的泛化误差界限的紧缩

利用信息论推导出监督学习算法的泛化误差的信息熵上界，能够更全面地考虑损失函数的条件，并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。

Jan, 2019

非凸学习中带噪声梯度方法的泛化误差界

本文应用Bayes-Stability框架证明算法相关的广义误差界，得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法（例如加动量，小批量和加速，熵-SGD）的数据相关的新广义误差界，论文结果较之前相关研究更紧凑。

Feb, 2019

基于条件互信息的尖锐一般化界限及其在含噪迭代算法中的应用

研究使用超样本来计算条件互信息并提出新的紧密边界模型，应用于Langevin动力学算法以获得更紧密的假设测试边界。

Apr, 2020

分布式学习下线性回归的泛化误差

本研究针对分布式学习进行了线性回归分析，发现当节点估计未知数接近观测数时，与集中化解决方案相比，分布式解决方案的泛化误差大幅增加。

Apr, 2020

信息密度和条件信息密度的泛化界

通过指数不等式的方法，我们研究了随机学习算法的泛化误差的界限和概率分布，针对亚高斯损失函数提供了以训练数据和输出假设之间信息密度为依据的新的界限，并将该方法扩展到了基于随机选择训练数据子集的情况。

May, 2020

随机梯度下降的信息理论泛化界

本研究研究了随机梯度下降（SGD）这种普遍使用的随机优化方法的泛化特性，提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限，其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。

Feb, 2021

具有有界更新的迭代学习算法的泛化误差界

研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性，采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界，超出了之前仅关注随机梯度下降（SGD）的范畴。我们的方法引入了两个新颖之处：1）我们将互信息重新表述为更新的不确定性，提供了新的视角；2）我们采用方差分解技术来分解迭代中的信息，而不是使用互信息的链式法则，从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界，并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距，我们还研究了大型语言模型中先前观察到的标度行为。最终，我们的工作为发展实用的泛化理论迈出了更进一步的步伐。

Sep, 2023

基于被审查反馈的学习泛化误差界

非独立同分布的数据和带有审查反馈的数据对学习理论中的泛化误差界限有影响，本文通过推导改进的Dvoretzky-Kiefer-Wolfowitz不等式来界定这种影响，并通过分析探索技术的有效性提供新的误差界限模型。

Apr, 2024