相对平坦性和泛化

Jan, 2020

Relative Flatness and Generalization

Henning Petzka, Michael Kamp, Linara Adilova, Cristian Sminchisescu, Mario Boley

TL;DR本文研究了损失曲线的平直性与机器学习模型的泛化能力之间的联系，通过推导出代表性数据的概念，并提出新的相对平直性的度量方法，解决了薄板回归等复杂度量方法所带来的重新参数化的问题。

Abstract

flatness of the loss curve is conjectured to be connected to the generalization ability of machine learning models, in particular neural networks. While it has been empirically observed that →

flatness generalization representative data feature robustness neural networks

发现论文，激发创造

神经网络中从损失平坦性到压缩表示的简单连接

深度神经网络的泛化能力在参数空间的损失景观形状和特征空间（即单位活动的空间）的表示流形结构两个不同的方法中已经被研究，但很少一起研究并显式连接。我们提出了一个简单的分析，建立了它们之间的联系，并展示了表明在深度神经网络的学习的最后阶段，神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。

Oct, 2023

相对平坦度感知的最小化（FAM）

通过引入一种相对平坦度度量方法，本研究提出一种新的正则化器，该正则化器易于计算、快速高效，适用于各种损失函数，可以在单层网络上计算海森矩阵，提高模型的泛化性能，有效避免了损失曲面映射的昂贵代价。

Jul, 2023

具有连接切线核的尺度不变贝叶斯神经网络

该研究提出了基于参数缩放的先验分布与后验分布的不变性解决神经网络中泛化与可靠性问题，避免了参数总体规模变化对网络泛化性能的影响，从而提高了 Laplace 对数似然近似算法的不确定性校准效果。

Sep, 2022

将对抗鲁棒性普适性与平坦极小值联系起来

本文研究了 Robust Generalization 与 Robust Loss Landscape 的关系，设计了衡量该 Landscape 平坦性的度量，并验证了平坦的 Landscape 有助于提高 Adversarial Training 的鲁棒性与泛化性能。

Apr, 2021

尖锐度最小化算法不仅仅通过最小化尖锐度来达到更好泛化

尽管进行了广泛的研究，但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出，对于两层 ReLU 网络，（1）平坦确实意味着泛化；（2）存在不泛化的最平坦模型，锐度最小化算法无法泛化；（3）最令人惊讶的是，存在不泛化的最平坦模型，但锐度最小化算法仍然可以泛化。我们的结果表明，锐度与泛化之间的关系微妙地依赖于数据分布和模型架构，锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。

Jul, 2023

熵梯度下降算法与宽平坦最小值

论文讨论了神经网络的经验风险景观的平坦极小值的特性，提出了增加最大平坦度算法，可以得到更好的分类效果。

Jun, 2020

损失地形的曲率研究

通过分析嵌入的黎曼流形的微分几何性质，我们研究了损失景观，并展示了与潜在推理相关的几个设置之间的联系。

Jul, 2023

深度矩阵分解中平坦正则化的归纳偏差

在学习从线性度量中的深度线性网络时，最小化 Hessian 矩阵的迹大致相当于最小化相应端到端矩阵参数的 Schatten 1 - 范数，这进而导致更好的概括。

Jun, 2023

深度网络平坦极小值的独特特性

研究表明，随机梯度下降有一个偏好于平滑最小值的隐含偏差。本文研究发现，在具有二次损失的线性神经网络训练中，线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值，这些最小值对应着接近平衡网络。另外，相邻层的权重矩阵在平坦的极小值解中相互耦合，形成了从输入到输出的明显路径，该路径只用于体验端到端最大增益的信号。

Feb, 2020

通过 C-Flat 增强持续学习

通过连续学习方法中的权重损失景观锐度最小化，本研究提出了一种适用于连续学习任务的 C-Flat 方法，可以在几乎所有情况下提高模型性能。

Apr, 2024