机器学习算法的泛化分析：最坏情况数据生成概率测度

AAAIDec, 2023

机器学习算法的泛化分析：最坏情况数据生成概率测度

Generalization Analysis of Machine Learning Algorithms via the Worst-Case Data-Generating Probability Measure

Xinying Zou, Samir M. Perlaza, Iñaki Esnaola, Eitan Altman

TL;DR该研究介绍了将最坏情况下的概率度量引入数据中，以表征机器学习算法的泛化能力。最坏情况下的概率度量是 Gibbs 概率度量，并且是相对熵约束下期望损失最大化的唯一解。该研究还通过最坏情况下的数据生成概率度量得出了基本的泛化度量指标，例如期望损失的敏感性、经验风险的敏感性和泛化差距，并恢复了 Gibbs 算法的现有结果，将泛化差距的特征化表述为互信息和劳特纳信息之和。而最坏情况下的数据生成概率度量和 Gibbs 算法之间建立了一种新的类比关系，具体而言，Gibbs 概率度量被确定为模型空间和数据空间的机器学习算法的基本共性。

Abstract

In this paper, the worst-case probability measure over the data is introduced as a tool for characterizing the generalization capabilities of machine learning algorithms. More specifically, the →

worst-case probability measure generalization capabilities machine learning algorithms gibbs probability measure sensitivity

发现论文，激发创造

朝着更好的领域外泛化评估

领域通用化的目标是设计算法和模型，能够在之前未见过的测试分布上取得高性能。本研究中，我们对平均度量进行了细致的探究，并提出了 “最差 + 间隙” 度量作为一种强健的替代方案。通过理论推导和实验分析，我们发现平均度量不能准确近似真实的领域通用化性能，而 “最差 + 间隙” 度量在理论上和实践中都表现出了鲁棒性。

May, 2024

模型无关的泛化困难度度量

该研究提出了第一个与模型无关的任务内在泛化难度度量，称为归纳偏差复杂度度量，该度量可以应用于计算和比较监督学习、增强学习和元学习的泛化难度。

May, 2023

一般化误差的平均场分析

通过对概率测度空间进行微分计算的视角，我们提出了一个探索算法的弱广义误差和 $L_2$ 广义误差的新框架。具体而言，我们考虑 KL - 正则化的经验风险最小化问题，并建立了通用条件，使得在训练样本大小为 n 的情况下，广义误差的收敛速率是 $O (1/n)$。在一隐藏层神经网络的平均场区域的监督学习方面，这些条件反映在对损失和激活函数的适当可积性和正则性假设中。

Jun, 2023

学习算法泛化能力的信息论分析

本研究提出了一种基于信息理论的泛化误差上界方法，用以控制模型的输入输出互信息，进而指导在数据适配和泛化之间寻找平衡点。在此基础上，我们探索了一些方法，包括利用相对熵或随机噪声来正则化 ERM 算法等。这些方法扩展和改进了 Russo 和 Zou 的最近工作。

May, 2017

利用 PAC-Bayes 理论和 Gibbs 分布进行具有复杂度度量的泛化界限

该研究利用分解的 PAC-Bayes 边界框架得出一个可适配任意复杂度度量的一般泛化边界，其中关键步骤是考虑一系列常用的分布：Gibbs 分布。该边界在概率上同时适用于假设和学习样本，允许复杂度根据泛化差距进行调整，以适应假设类和任务。

Feb, 2024

通过算法相关的 Rademacher 复杂度实现泛化保证

算法和数据相关的广义化界限是解释现代机器学习算法的广义化行为所必需的。在这个背景下，存在包括 (各种形式的) 互信息和基于假设集稳定性的信息论广义化界限。我们提出了一个概念上相关但技术上独特的复杂度度量方法来控制广义化误差，这就是算法和数据相关的假设类的经验 Rademacher 复杂度。通过结合 Rademacher 复杂度的标准特性和这个类的方便结构，我们能够 (i) 获得基于有限分形维度的新界限，这些界限将之前从连续假设类推广到有限假设类，并避免了先前工作中所需的互信息项；(ii) 大大简化了最近一个和维度无关的随机梯度下降的广义化界限的证明；(iii) 我们轻松恢复了 VC 类和压缩方案的结果，类似于基于条件互信息的方法。

Jul, 2023

使用 Gibbs 算法表征和理解传递学习的泛化误差

本研究对基于 Gibbs 的转移学习算法的泛化能力进行了信息论分析，结果表明转移学习的好处可以看作是源分布引起的偏差和目标样本不足引起的方差的权衡。

Nov, 2021

嘈杂迭代算法的泛化误差界

本文证明了当损失函数为亚高斯函数时，基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界，此外还探究了噪声受限的迭代算法的泛化误差上界。

Jan, 2018

关于 Gibbs 算法的验证：训练数据集、测试数据集及其聚合

研究了 Gibbs 算法的训练数据依赖性，使用期望经验风险作为性能衡量标准，得出了 GA 的敏感性，并研究了数据集聚合和评估 GA 泛化能力的不同指标，建立了 Jeffrey's 散度、训练和测试误差之间的联系。

Jun, 2023

通过 Rényi、$f$-Divergences 和最大泄漏实现的广义误差界限

本文研究如何利用边缘分布和随机变量之间的依赖关系来估计概率事件的概率，并在自适应数据分析和学习理论中应用，其中包括 Sibson 的互信息、α- 散度、Hellinger 散度、f - 散度等多种方法，并将最大泄密量作为特例进行了研究。

Dec, 2019