Dec, 2023

从互信息到期望动力学:针对重尾随机梯度下降的新的泛化界限

TL;DR理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的 PAC-Bayesian 设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。