重尾普遍性预测大型预训练深度神经网络的测试准确性趋势

Jan, 2019

重尾普遍性预测大型预训练深度神经网络的测试准确性趋势

Heavy-Tailed Universality Predicts Trends in Test Accuracies for Very Large Pre-Trained Deep Neural Networks

Charles H. Martin, Michael W. Mahoney

TL;DR通过构建通用容量控制度量，该度量基于重尾自正则化（HT-SR）理论，发现现代深度神经网络的层权矩阵中的相关性可调整为和重尾随机矩阵理论相同的普适类别。实验表明，该度量与测试准确性相关良好。

Abstract

Given two or more deep neural networks (DNNs) with the same or similar architectures, and trained on the same dataset, but trained with different solvers, parameters, hyper-parameters, regularization, etc., can we predict which DNN will have the best →

deep neural networks heavy-tailed self-regularization universal capacity control metric test accuracy imagenet

发现论文，激发创造

不使用训练或测试数据预测最先进神经网络质量趋势

该研究利用基于规范的容量控制指标和基于幂律的重尾自正则化理论的度量方法对数百个公开可用的预训练模型进行了详细的元分析，发现基于幂律的度量方法可以更好地区分预训练模型的良好培训和质量低劣的模型。

Feb, 2020

神经网络模型中的传统自我正则化和重尾自我正则化

本研究运用随机矩阵理论分析了深度神经网络的权重矩阵，通过实验和理论结果表明神经网络层矩阵的经验谱密度显示出传统正则化统计模型的特征。并且发现随着训练阶段的增加，隐式自正则化逐渐显现，这种隐式自正则化可以像传统的 Tikhonov 正则化一样，但也可以是重尾分布的，类似于无序系统的自组织现象，并存在着一个通用性的现象。

Jan, 2019

深度神经网络中权重矩阵的重尾正则化

通过随机矩阵理论，提出了一种名为 “Heavy-Tailed Regularization” 的正则化技术，此技术优化了神经网络的权重矩阵，使其有更重的尾巴，并提升了网络的泛化能力。对比传统的正则化方法，实验结果证明这种新方法在泛化效果上更优秀。

Apr, 2023

深度神经网络中的隐式自正则化：来自随机矩阵理论的证据和对学习的影响

利用随机矩阵理论分析深度神经网络的权重矩阵，并得出神经网络的训练过程本身隐式实现了自我正则化的结论，通过改变批次大小和利用泛化间隙现象，证明了大批次训练导致模型隐含正则化不佳并解释了泛化间隙现象。

Oct, 2018

使用无需访问任何训练或测试数据的泛化度量评估自然语言处理模型

本文研究了自然语言处理模型中，关于深度神经网络的推广问题，提出了几种新的推广度量标准并作了实证研究。研究表明，通过拟合嵌入矩阵的形状的度量标准与与推广表现有着更强的相关性。

Feb, 2022

训练神经网络中的变异性鲁棒非参数假设检验

基于网络输出的一个稳健假设检验框架，我们提出了一种新的分类模型之间的相似性度量方法，该方法可以适应经过训练模型的其他衍生量。

Oct, 2023

在没有梯度噪声的权重矩阵谱中制造重尾

通过分析深度神经网络的重尾谱、梯度噪声和学习率等因素，我们揭示了深度神经网络在有限的训练步骤后可以生成重尾谱的机制，并研究了重尾谱与泛化能力之间的相关性。

Jun, 2024

深度神经网络的扩展临界区

利用长尾随机矩阵与非平衡统计力学理论，提出了 DNN 的新型平均场理论，并发现重尾权重使得 DNN 出现了一个拓展的临界区，体现了丰富的跨层传播动力学，进而赋予 DNN 突出的计算优势，这为设计高效神经网络结构提供了理论指导。

Mar, 2022

深度神经网络的后验和变分推断与重尾权重

我们在贝叶斯框架中考虑深度神经网络，采用随机网络权重的先验分布。根据 Agapiou 和 Castillo（2023）的最新观点表明，重尾先验分布实现了对平滑性的自适应，我们提出了一个简单的基于重尾权重和 ReLU 激活的贝叶斯深度学习先验。我们证明了相应的后验分布在非参数回归、几何数据和 Besov 空间等多种情况下实现了近乎最优的极小极小收缩率，同时对底层函数的内在维度和平滑性进行了自适应。虽然迄今为止大多数方法需要在先验分布中内置一种模型选择的形式，我们方法的一个关键方面是它不需要对网络架构进行超参数采样学习。我们还提供了结果的变分贝叶斯对应物，表明均场变分近似仍然从近乎最优的理论支持中受益。

Jun, 2024

利用随机矩阵理论提高深度学习的准确性

通过利用随机矩阵理论来进行深度神经网络的层剪枝，我们可以实现神经网络结构和误差曲面的简化。通过奇异值分解（SVD），我们优化地确定了在训练过程中应该从神经网络的权重层中移除的奇异值个数，从而提高了神经网络的简化和精度，并在 MNIST 和 Fashion MNIST 数据集上验证了这一方法的有效性。

Oct, 2023