从超参数化机器学习理论的角度看偏差-方差折中问题的再思考
本文中,我们通过统一的性能曲线,协调了传统理解与现代实践,它包含了传统的U形偏差-方差权衡曲线,这个被称为“双下降”曲线的统计证据,证明了其存在于各种模型和数据集中,并推断了其出现机制。通过机器学习模型性能与结构之间的联系,勾勒出了传统分析的局限性,对机器学习的理论和实践都有重要意义。
Dec, 2018
通过合成和半合成实验,我们对无监督学习中的超参数化不同方面进行了实证研究,发现在各种模型(如嘈杂OR网络、稀疏编码、概率上下文自由语法)和训练算法(如变分推断、交替最小化、期望最大化)中,超参数化可以显著增加回收潜在变量的数量。
Jun, 2019
本文分析了过参数化模型剪枝中的双重下降现象,提出了在某些情况下,训练大型模型再进行剪枝比仅使用已知信息更好的理论证明,同时也发现了重新训练的好处以及在线性和随机特征模型中已经存在这些现象,这进一步促进了高维分析工具的发展。
Dec, 2020
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时摘要了最新的理论进展,重点考虑了神经网络的线性区域。
Mar, 2021
本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测,表明超学习风险会在满足一定条件的情况下逐渐减小,并且在两层神经网络中使用ReLU激活函数的情况下具有近最小化学习率的能力。同时,还发现当网络参数数量超过O(n^2)时,超学习风险开始增加,这与最近的实证结果相符。
Jun, 2021
该论文研究了神经网络等插值方法是否能够在存在噪声的情况下,拟合训练数据而不会表现出灾难性的测试性能,尝试通过“良性过拟合”和“温和过拟合”两个现象进行解释,并首次系统研究了“温和过拟合”的性质及在核(岭)回归中的表现,以及在深度神经网络中的实验结果。
Jul, 2022
本篇论文提出了一个回归模型的理论,在训练数据中具有比数据点更多的参数,这种模型被称为过度参数化模型,有能力插值训练数据,最好的模型是过度参数化的,与模型阶数呈双峰形。我们分析了最小二乘问题的最小化的解的内插模型,以及使用岭回归进行模型拟合的情况。同时也提出了一个基于回归矩阵最小奇异值行为的结果,可以解释测试误差随模型阶数的峰值位置和双峰形状。
Apr, 2023
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对SAM具有重要影响。具体而言,我们证明了在随机设置中SAM可以实现线性收敛速度,并且发现SAM找到的具有线性稳定性的极小值相比SGD更加平坦且具有更均匀分布的Hessian矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。
Nov, 2023
本研究探讨了经典统计直觉在现代机器学习现象(如双重下降和良性过拟合)下的局限性,揭示了这种局限源于固定设计与随机设计之间的根本性差异。研究表明,从固定设计转向随机设计会对偏差-方差权衡的直觉产生深远影响,这一发现有助于理解现代机器学习的预测能力与统计直觉之间的显著差异。
Sep, 2024
本研究解决了过参数化对离群检测影响理解不足的问题,提出了一种期望的离群风险度量来评估分类器在训练和离群样本上的置信度。研究表明,当参数数量等于样本数量时,离群风险会出现无限峰值,呈现双重下降现象,同时实验结果显示过参数化未必会提升离群检测效果。
Nov, 2024