基于被审查反馈的学习泛化误差界
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
现有的监督学习泛化理论通常采用整体方法,并提供整个数据分布的期望泛化界限,这暗示了模型对所有类别的泛化情况相似。然而,在实践中,不同类别之间的泛化性能存在显著差异,这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题,该误差量化了每个个体类别的泛化性能。我们使用 KL 散度推导出了一种新的信息论界限来度量类别泛化误差,并进一步利用条件互信息 (CMI) 获得了几个更紧的界限,这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外,我们还展示了本文所开发的理论工具能够应用在其他多个领域。
Jan, 2024
通过指数不等式的方法,我们研究了随机学习算法的泛化误差的界限和概率分布,针对亚高斯损失函数提供了以训练数据和输出假设之间信息密度为依据的新的界限,并将该方法扩展到了基于随机选择训练数据子集的情况。
May, 2020
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
本文应用 Bayes-Stability 框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵 - SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019
利用信息论推导出监督学习算法的泛化误差的信息熵上界,能够更全面地考虑损失函数的条件,并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。
Jan, 2019
基于泛化界限的理论,我们提出了一种基于改变度量不等式的全新方法,能够紧密地将模型损失与人口中治疗倾向的偏差联系起来,并证明其在有限样本上的有效性,即使在隐性混杂因素和阳性违反的情况下也能成立。我们在半合成和实际数据上验证了我们的界限,展示了其出色的紧密性和实际效用。
May, 2024
采用信息理论的视角探索深度神经网络在有监督分类中的理论基础,分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用,研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响,并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。
Jun, 2024
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
本文介绍了一种利用无标签数据生成泛化界限的方法,并证明了其对 0-1 经验风险最小化和梯度下降训练的线性分类器是有效的。实证表明,该界限提供的泛化保证可以在计算机视觉和自然语言处理任务中跟踪实际表现。
May, 2021