重尾普遍性预测大型预训练深度神经网络的测试准确性趋势
该研究利用基于规范的容量控制指标和基于幂律的重尾自正则化理论的度量方法对数百个公开可用的预训练模型进行了详细的元分析,发现基于幂律的度量方法可以更好地区分预训练模型的良好培训和质量低劣的模型。
Feb, 2020
本研究运用随机矩阵理论分析了深度神经网络的权重矩阵,通过实验和理论结果表明神经网络层矩阵的经验谱密度显示出传统正则化统计模型的特征。并且发现随着训练阶段的增加,隐式自正则化逐渐显现,这种隐式自正则化可以像传统的 Tikhonov 正则化一样,但也可以是重尾分布的,类似于无序系统的自组织现象,并存在着一个通用性的现象。
Jan, 2019
通过随机矩阵理论,提出了一种名为 “Heavy-Tailed Regularization” 的正则化技术,此技术优化了神经网络的权重矩阵,使其有更重的尾巴,并提升了网络的泛化能力。对比传统的正则化方法,实验结果证明这种新方法在泛化效果上更优秀。
Apr, 2023
利用随机矩阵理论分析深度神经网络的权重矩阵,并得出神经网络的训练过程本身隐式实现了自我正则化的结论,通过改变批次大小和利用泛化间隙现象,证明了大批次训练导致模型隐含正则化不佳并解释了泛化间隙现象。
Oct, 2018
本文研究了自然语言处理模型中,关于深度神经网络的推广问题,提出了几种新的推广度量标准并作了实证研究。研究表明,通过拟合嵌入矩阵的形状的度量标准与与推广表现有着更强的相关性。
Feb, 2022
通过分析深度神经网络的重尾谱、梯度噪声和学习率等因素,我们揭示了深度神经网络在有限的训练步骤后可以生成重尾谱的机制,并研究了重尾谱与泛化能力之间的相关性。
Jun, 2024
利用长尾随机矩阵与非平衡统计力学理论,提出了 DNN 的新型平均场理论,并发现重尾权重使得 DNN 出现了一个拓展的临界区,体现了丰富的跨层传播动力学,进而赋予 DNN 突出的计算优势,这为设计高效神经网络结构提供了理论指导。
Mar, 2022
我们在贝叶斯框架中考虑深度神经网络,采用随机网络权重的先验分布。根据 Agapiou 和 Castillo(2023)的最新观点表明,重尾先验分布实现了对平滑性的自适应,我们提出了一个简单的基于重尾权重和 ReLU 激活的贝叶斯深度学习先验。我们证明了相应的后验分布在非参数回归、几何数据和 Besov 空间等多种情况下实现了近乎最优的极小极小收缩率,同时对底层函数的内在维度和平滑性进行了自适应。虽然迄今为止大多数方法需要在先验分布中内置一种模型选择的形式,我们方法的一个关键方面是它不需要对网络架构进行超参数采样学习。我们还提供了结果的变分贝叶斯对应物,表明均场变分近似仍然从近乎最优的理论支持中受益。
Jun, 2024
通过利用随机矩阵理论来进行深度神经网络的层剪枝,我们可以实现神经网络结构和误差曲面的简化。通过奇异值分解(SVD),我们优化地确定了在训练过程中应该从神经网络的权重层中移除的奇异值个数,从而提高了神经网络的简化和精度,并在 MNIST 和 Fashion MNIST 数据集上验证了这一方法的有效性。
Oct, 2023