相对偏差学习界限与具有无界损失函数的泛化
本文研究了基于在线学习的随机方法的泛化特性,提出了一种通用的解耦技术,可以提供基于 Rademacher 复杂度的泛化误差界限,并进一步分析了一类内存效率的在线学习算法。
May, 2013
本文研究如何利用边缘分布和随机变量之间的依赖关系来估计概率事件的概率,并在自适应数据分析和学习理论中应用,其中包括Sibson的互信息、α-散度、Hellinger散度、f-散度等多种方法,并将最大泄密量作为特例进行了研究。
Dec, 2019
通过指数不等式的方法,我们研究了随机学习算法的泛化误差的界限和概率分布,针对亚高斯损失函数提供了以训练数据和输出假设之间信息密度为依据的新的界限,并将该方法扩展到了基于随机选择训练数据子集的情况。
May, 2020
本文提出了基于Wasserstein距离的预期泛化误差界限,并分别介绍了全数据集、单字母和随机子集限制,以及从Steinke和Zakynthinou [1]的随机子抽样设置中的类似物。此外,当损失函数有界且选择Wasserstein距离中的度量时,这些界从相对熵的基础上得到了更好的下限(因此是更紧的)。在特定情况下,这些结果可以被看作是考虑了假设空间几何和基于相关熵的界限之间的桥梁。另外,本文还介绍了如何基于这些界限产生各种新的界限,并使用类似的证明技术得出关于后向通道的类似界限。
Jan, 2021
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法,进而得到新的期望值和高概率条件下泛化误差的上界,特别地,还包括了基于互信息、条件互信息、随机链和PAC-Bayes不等式等现有泛化界限的特例。此外,Fernique-Talagrand上界也是一个特例。
May, 2023
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
通过对任意凸比较函数进行信息论和PAC-Bayesian广义泛化界推导,我们得到泛化界,这些界利用该函数衡量训练和总体损失之间的差异。当比较函数是边界分布的CGF凸共轭时,最紧密的界得以实现,这也适用于结构类似的广义泛化界。这证实了对于有界和亚高斯损失的已知界的近最优性,并得出了关于其他边界分布的新界。
Oct, 2023
非独立同分布的数据和带有审查反馈的数据对学习理论中的泛化误差界限有影响,本文通过推导改进的Dvoretzky-Kiefer-Wolfowitz不等式来界定这种影响,并通过分析探索技术的有效性提供新的误差界限模型。
Apr, 2024