深度学习具有泛化能力是因为参数 - 函数映射倾向于简单函数

ICLRMay, 2018

深度学习具有泛化能力是因为参数 - 函数映射倾向于简单函数

Deep learning generalizes because the parameter-function map is biased towards simple functions

Guillermo Valle-Pérez, Chico Q. Camargo, Ard A. Louis

TL;DR本文提供了深度神经网络的隐式正则化和广义性能的新解释，即表明深度神经网络的参数 - 函数映射应该具有指数偏向简单函数的现象，并且该内在的简单性依赖有助于解释为什么深度网络在现实世界的问题上具有良好的泛化性能。此外，本文提出了一种基于 PAC-Bayes 理论的方法，可以保证目标函数产生高似然训练集时的良好期望泛化，而且该方法的普适性更好。

Abstract

deep neural networks (DNNs) generalize remarkably well without explicit regularization even in the strongly over-parametrized regime where classical learning theory would instead predict that they would severely overfit. While many proposals for some kind of →

deep neural networks implicit regularization simplicity bias pac-bayes approach generalization

发现论文，激发创造

深度神经网络是否具有内在的奥卡姆剃刀原理？

研究表明，深度神经网络成功的关键在于结构化数据，以及拥有一种像奥卡姆剃刀一般的归纳偏差，使其能够对抗复杂度呈指数级增长的函数，通过引入贝叶斯图像和随机梯度下降等方法，我们试图将网络架构、训练算法和数据结构三个组件相互分离。

Apr, 2023

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

深度神经网络中的低秩简约偏差

本文提出深度神经网络可归纳地更倾向于寻找低秩嵌入的解，这种偏见在网络深度和宽度，初始化和训练过程中都存在，并且能够提高 CIFAR 和 ImageNet 数据集的泛化性能。

Mar, 2021

用傅里叶分析理解深度学习中的训练和泛化

通过傅里叶分析，研究 DNN 训练的理论框架，解释了梯度下降法训练 DNN 经常赋予目标函数低频分量更高的优先级，小的初始化导致 DNN 具有良好的泛化能力，同时保留拟合任何函数的能力。这些结果进一步得到了 DNN 拟合自然图像、一维函数和 MNIST 数据集的实验证实。

Aug, 2018

深度神经网络的惰性训练下的良性过拟合

该论文探讨和证明了过参数化的深度神经网络利用懒惰训练策略可以实现贝叶斯最优测试误差，同时获得（几乎）零训练误差，并提出了三个相关概念的统一。

May, 2023

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

深度神经网络在近似和估计中适应函数规律性和数据分布

深度学习在不同领域展现了显著的成果，但为了理解其成功，我们需要研究其理论基础。本文探讨了一个不同的角度：深度神经网络如何适应不同地点、尺度和非均匀数据分布的函数的不同规则性。我们使用深层 ReLU 网络发展了非参数逼近和估计理论，并在多个函数类上应用了我们的结果，推导出相应的逼近误差和泛化误差。通过数值实验验证了我们结果的有效性。

Jun, 2024

深度学习的泛化界限

本研究提出了关于深度学习的泛化误差的准则，介绍了一种基于边际似然的 PAC-Bayesian Bound 方法来预测泛化误差，并进行了广泛实证分析以评估该方法的效果和特性。

Dec, 2020

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024