深度网络可通过尖利极小化实现泛化
该论文从PAC-Bayesian角度审视了关于平坦极小值的讨论,并引入了归一化的平坦极小值概念,该概念不受已知尺度依赖问题的影响,且可以提供更好的假设类层次结构。
Jan, 2019
通过提出基于海森矩阵的浅度测量,在深度网络训练中检验了大批量SGD最小值确实比小批量SGD最小值更锐利,并且我们证明了正同态激活的深度网络的等价关系在参数空间中的商流形结构,并提出了一种具有等价不变性的测量平坦度的方法。
Feb, 2019
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中,我们发现了一些令人惊讶的发现,希望这能帮助研究人员进一步改进深度学习优化器,并帮助实践者为其问题选择正确的优化器。
Feb, 2022
本文提出通过附加惩罚损失函数的梯度范数来提高深度神经网络的泛化性能,使用我们的方法可以改善不同数据集上的各种模型的泛化性能,并且最佳情况下可在这些任务上提供新的最先进性能。
Feb, 2022
通过数学分析和实验证明,在深度网络中引入标准化层(例如批量标准化,层标准化)有利于优化并促进泛化,同时对于包含标准化的一类神经网络,伴随权值衰减的标准化可以鼓励梯度下降到达稳定边缘,并且对于这种情况,可以确定梯度下降的流动轨迹。
Jun, 2022
我们提出了一种新的方法来理解深度学习中损失曲率和泛化之间的关系,特别地,我们使用深度网络损失Hessian频谱的现有经验分析来基于一个猜想将深度神经网络的损失Hessian和输入输出Jacobian联系在一起。我们证明了一系列理论结果,这些结果量化了模型的输入输出Jacobian在数据分布上近似其Lipschitz范数的程度,并在经验Jacobian的术语中推导出一个新的泛化界限。我们使用我们的猜想以及我们的理论结果来提供一个关于最近观察到的渐进锐化现象以及平坦极小值的泛化特性的新解释。我们提供了实验证据来验证我们的论点。
May, 2023
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层ReLU网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
深度神经网络的泛化能力在参数空间的损失景观形状和特征空间(即单位活动的空间)的表示流形结构两个不同的方法中已经被研究,但很少一起研究并显式连接。我们提出了一个简单的分析,建立了它们之间的联系,并展示了表明在深度神经网络的学习的最后阶段,神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。
Oct, 2023