解开样本大小和初始效果对单神经元目标完美泛化的影响

May, 2024

解开样本大小和初始效果对单神经元目标完美泛化的影响

Disentangle Sample Size and Initialization Effect on Perfect Generalization for Single-Neuron Target

Jiajie Zhao, Zhiwei Bai, Yaoyu Zhang

TL;DR过参数化模型，如深度神经网络，具有通过较少的采样数据点恢复目标函数的有趣能力。本研究集中研究了单神经元目标恢复场景，并系统地考察了初始化和样本大小对双层神经网络性能的影响。我们的实验证明，更小的初始化尺度与改善泛化有关，并确定了一个关键数量，称为 “初始不平衡比”，它管理着小初始化下的训练动力和泛化能力，该结果得到理论证明的支持。此外，我们经验性地划分了两个关键的样本大小阈值，称为 “乐观样本大小” 和 “分离样本大小”，与已有理论框架相契合。我们的结果表明了模型恢复目标函数能力的一个转变：在乐观样本大小之下，恢复是不可行的；在乐观样本大小时，通过零测度初始化集合，恢复变得可行。当达到分离样本大小时，可以成功恢复目标函数的初始化集合从零测度转变为正测度。这些从简化的背景中得出的见解，为理解过参数化神经网络中完美泛化的复杂性提供了观点。

Abstract

overparameterized models like deep neural networks have the intriguing ability to recover target functions with fewer sampled data points than parameters (see arXiv:2307.08921). To gain insights into this phenome

overparameterized models deep neural networks target recovery initialization sample size

发现论文，激发创造

深度学习模型中参数数量与泛化能力的关系及数量级的估算

本文通过神经切向核将大型神经网络连接到核方法，探讨了初始化会导致神经网络输出函数在期望附近产生有限大小的随机波动，影响分类的广义误差。我们最终的分析表明，在计算限制条件下，使用几个中间大小的网络，略高于阈值点，对它们的输出求平均，可以获得最小的分类误差。

Jan, 2019

过参数化的两层神经网络的优化与泛化的细粒度分析

该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化，通过对相关内核的特性进行追踪，提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。

Jan, 2019

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

小数据，大决策：小数据情境下的模型选择

本文通过实验证明，相比于之前研究中通常考虑模型大小因素对性能的影响，训练数据集的大小对模型性能的影响同样显著，实验结果发现，训练更小的数据子集可以带来更可靠的模型选择决策同时降低计算成本，并能估算出常见数据集在现代神经网络结构下的最小描述长度，为采用奥卡姆剃刀原则进行负责的模型选择提供了可能性。

Sep, 2020

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

迈向适度的过度参数化：为训练浅层神经网络提供全局收敛保证

本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型，并结合实验结果以浅层神经网络和平滑激活函数为例，证明了只需参数数量高于数据集大小的平方根时，梯度下降随机初始化即可收敛至全域最优解。

Feb, 2019

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

神经网络中的灵敏度和泛化性：一项实证研究

本研究通过对深度学习模型的多方面度量，特别是模型对输入扰动的敏感性度量，研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系，并得出结论：训练的神经网络在其训练数据范围内更加鲁棒，这种鲁棒性与泛化能力有关联，而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。

Feb, 2018