随机优化算法的分形结构和泛化特性
本研究从扰动动力学系统的角度研究了SGD优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似SGD算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于SGD算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使SGD陷入平坦的极小值点。
May, 2017
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本文提出了一种使用Feller过程来逼近SGD轨迹以及使用Hausdorff维度控制相关广义误差的学习理论框架,同时提出了使用Feller过程的尾部指数作为“容量度量”的概念,可用于估计广义误差,并且与参数数量不同于现有文献中的容量度量。
Jun, 2020
通过利用拓扑数据分析,我们建立了一个通用的计算工具,可以有效地计算深度神经网络的内在维度,从而预测其泛化错误。我们发现,误差可以用所谓的“持久同调维数”来等价限制,同时不需要对训练动力学进行任何额外的几何或统计假设,并且进一步提供可视化工具来帮助理解深度学习中的泛化。
Nov, 2021
通过探究 SGD 的轨迹依赖假设集,建立基于 Hausdorff 维数的 Rademacher 复杂度,并通过假设集稳定性推导具有预测力的 DNN 的新型泛化边界。
Jun, 2022
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的PAC-Bayesian设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。
Dec, 2023
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为$ d = O(n^2)$的情况下,可以证明经过调整以达到经验风险最优表现的典型GD(使用n个训练样本)在具有常数概率的情况下,收敛为近似经验风险最小化器,且其相对于总体风险具有Ω(1)的过量风险。这个界限对于标准GD需要达到非平凡测试误差的训练样本数量有一个下界Ω(√d),回答了Feldman(2016)和Amir,Koren和Livni(2021b)提出的一个开放问题,表明非平凡的维数依赖性是不可避免的。此外,针对标准的一次遍历随机梯度下降(SGD),我们证明了同样的构建技术在样本复杂度上提供了类似的Ω(√d)下界,以达到非平凡的经验误差,尽管它可以实现最优的测试性能。与之前的工作(Koren,Livni,Mansour和Sherman,2022)相比,这提供了维数依赖性的指数级改进,解决了其中的一个开放问题。
Jan, 2024
通过评估与所谓的分数Fokker-Planck方程相关的熵流,我们证明了重尾SDE的具有高概率的概括界限,无需包含任何非平凡的信息论术语,并发现了一个相变现象,这表明重尾可能有利也可能有害,具体取决于问题的结构。
Feb, 2024
深度学习中超参数化神经网络的泛化缺口、分形维度、持续同调维度、模型的双下降等方面进行了广泛的研究评估,通过观察发现,残差参数向量的L2范数与泛化缺口之间有更强的相关性。该研究为进一步探索分形几何、拓扑数据分析和神经网络优化之间的因果关系奠定了基础。
Jun, 2024