随机矩阵理论与神经网络的损失曲面

Jun, 2023

随机矩阵理论与神经网络的损失曲面

Random matrix theory and the loss surfaces of neural networks

Nicholas P Baskerville

TL;DR此篇论文利用随机矩阵理论来理解和描述神经网络的损失曲面及其谱，并应用于现代神经网络的训练方法，为随机矩阵理论在现代神经网络的理论研究中提供了重要的贡献。

Abstract

neural network models are one of the most successful approaches to machine learning, enjoying an enormous amount of development and research over recent years and finding concrete real-world applications in almost any conceivable area of science, engineering and modern life in general.

neural network models random matrix theory loss surfaces hessians optimisation algorithm

发现论文，激发创造

不仅仅是玩具：随机矩阵模型预测现实世界神经表示如何泛化

研究了机器学习模型泛化的定量现象，发现基于核回归的大规模神经网络和真实数据的核函数理论分析往往无法捕捉到这些现象，然而基于 GCV 估算器的实证研究结果表明该方法可以在这种超参数化的情境下准确预测泛化风险，并证明了 GCV 估算器在满足局部随机矩阵定理时总是可以收敛到泛化风险，最后应用这个随机矩阵理论解释了为什么预训练表示的泛化性更好以及什么因素支配了核回归的放缩定律，该研究揭示了随机矩阵理论对于理解神经表征的性质至关重要。

Mar, 2022

学习的动态性：一种随机矩阵方法

本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态，并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解，为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。

May, 2018

利用随机矩阵理论提高深度学习的准确性

通过利用随机矩阵理论来进行深度神经网络的层剪枝，我们可以实现神经网络结构和误差曲面的简化。通过奇异值分解（SVD），我们优化地确定了在训练过程中应该从神经网络的权重层中移除的奇异值个数，从而提高了神经网络的简化和精度，并在 MNIST 和 Fashion MNIST 数据集上验证了这一方法的有效性。

Oct, 2023

深度学习的统计理论综述：逼近、训练动态和生成模型调查

这篇文章介绍了关于神经网络的统计理论，从三个角度进行了综述：非参数回归或分类中关于神经网络过度风险的结果，神经网络的训练动力学以及生成模型中的最新理论进展。

Jan, 2024

深度神经网络中的隐式自正则化：来自随机矩阵理论的证据和对学习的影响

利用随机矩阵理论分析深度神经网络的权重矩阵，并得出神经网络的训练过程本身隐式实现了自我正则化的结论，通过改变批次大小和利用泛化间隙现象，证明了大批次训练导致模型隐含正则化不佳并解释了泛化间隙现象。

Oct, 2018

深度神经网络中出现的随机矩阵。高斯情况

本研究针对出现在深度神经网络分析中的随机矩阵乘积奇异值分布进行了研究，其中，数据矩阵的总体协方差矩阵是随机的，基于随机矩阵理论和标准技术，分析了数据矩阵的非高斯分布并阐述其在分析宏观普适性方面的潜在应用。

Jan, 2020

多层网络的损失曲面

本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系，并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布，利用计算机模拟和数学模型对结果进行了验证和验证。

Nov, 2014

神经网络优化和泛化

论文旨在通过提出基于结构的一阶优化算法和网络集合与个体网络之间的一种新对应关系，发展人工神经网络的学习权优化和泛化理论基础，进而在具有远远更多参数的网络中探索正则化的作用。

Oct, 2022

深度神经网络的学习曲线：高斯场理论视角

使用一种物理学方法对深度学习进行研究，通过重整化群、Feynman 图和副本构造了一个多功能场论形式体系用于分析高度超参数化情况下的深度学习，研究表明 DNNs 除了高度超参数化外，仍然具有解释性和预测性 —— 偏向于简单函数。

Jun, 2019

基于随机矩阵理论的多任务回归分析及其在时间序列预测中的应用

我们提出了一个新的理论框架，将随机矩阵理论应用于高维非高斯数据分布下，为多任务回归提供准确的性能估计；我们通过将多任务优化问题形式化为一种正则化技术来使单任务模型利用多任务学习信息，并在线性模型的背景下导出了多任务优化的闭式解；我们的分析通过将多任务学习性能与各种模型统计量（如原始数据协方差、信号生成超平面、噪声水平以及数据集的大小和数量）进行链接，提供了有价值的见解；最后，我们提出了对训练和测试误差的一致估计，从而为多任务回归场景中的超参数优化提供了稳健的基础；将我们的方法与训练损失相结合，从而利用多变量信息，实验证实了在回归和多变量时间序列预测的合成和真实世界数据集上对于单变量模型的改进。

Jun, 2024