深度学习非线性混合的随机矩阵视角

Dec, 2019

深度学习非线性混合的随机矩阵视角

A Random Matrix Perspective on Mixtures of Nonlinearities for Deep Learning

Ben Adlam, Jake Levinson, Jeffrey Pennington

TL;DR研究分析使用大型神经网络架构和随机特征回归的深度学习在高维数据集的性能表现，并发现混合非线性函数可提高训练与测试性能，为近似核方法或神经网络架构设计提供了参考。

Abstract

One of the distinguishing characteristics of modern deep learning systems is that they typically employ neural network architectures that utilize enormous numbers of parameters, often in the millions and sometime

deep learning neural network random feature regression nonlinearities kernel methods

发现论文，激发创造

随机特征的广义化性能改善的最优非线性

通过对等效模型的参数进行研究，本文通过优化非线性激活函数，实现了对给定监督学习问题的改善，验证了这些优化的非线性函数在回归和分类问题中比常用的非线性函数（如 ReLU 函数）具有更好的泛化性能，并且缓解了所谓的 “双峰下降” 现象。

Sep, 2023

基于学生 - 老师框架的随机特征模型的在线学习

研究了两层神经网络中过参数化对学生 - 教师框架的影响，发现只有当学生的隐藏层数量指数级大于输入维度时，才能达到完美的泛化。同时计算了其渐进的泛化误差。

Mar, 2023

随机特征回归的泛化误差：精确渐近性和双下降曲线

本文考虑使用随机特征空间，在测度无限趋近于无限，特征维度和样本量趋近于无穷大的情况下，利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。

Aug, 2019

高维回归中的缩放和重标定

用随机矩阵理论和自由概率的基本工具简要推导了多种高维岭回归模型的训练和泛化性能，在物理学和深度学习背景的读者中提供了这些主题的介绍和评论。通过自由概率的 $S$ 变换特性，从代数的几行直接获得训练和泛化误差的解析公式，能够直观地识别模型性能的幂律缩放来源。计算了广义类随机特征模型的泛化误差，发现在所有模型中，$S$ 变换对应于训练 - 测试泛化差距，并提供了广义交叉验证估计器的类比。利用这些技术，对具有结构化协变量的非常通用的随机特征模型得到了细粒度的偏差 - 方差分解。这些新颖结果使我们能够发现随机特征模型的缩放区域，在超参数设置中特征的方差限制了性能。我们还演示了随机特征模型中异向权重结构如何限制性能，并导致超参数设置中有限宽度修正的非平凡指数。我们的结果扩展并提供了对早期神经缩放定律模型的统一视角。

May, 2024

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

随机特征与多项式规则

通过分析随机特征模型在高斯数据的一般监督学习问题中的泛化性能，我们建立了一个在输入维度上的两个主要控制参数：随机特征的数量 N 和训练集的大小 P，都以输入维度 D 为幂次关系的等效多项式模型。我们的结果证明了 N、P 和 D 之间的比例关系，并与数值实验结果定量一致，同时远离渐近极限 D→∞，其中至少一个介于 P/D^K 和 N/D^L 之间的参数保持有限。

Feb, 2024

由随机神经网络生成的函数的非线性点

探讨了一种带 1 个隐藏激活层、任意宽度和 ReLU 激活函数的神经网络，研究了神经网络的偏差，解释了为何神经网络可能更偏好具有更简单的几何形状和为何某些低信息熵函数对于神经网络来说仍然难以近似。

Apr, 2023

随机特征在理解神经网络中的能力和局限

本文回顾了最近一系列训练超参数神经网络和学习随机特征的实证结果及其限制性说明，论述了神经网络的理论困境并对其表现出的令人印象深刻的经验结果提出了仍需克服的挑战。

Apr, 2019

深度结构（随机）特征的学习渐近性

我们提供了一种针对大类特征映射的紧密渐近特征错误的表征，其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发，即具有随机但结构化权重的深层非线性全连接网络，它们的行协方差进一步允许依赖于前层的权重。对于这样的网络，我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现，在某些情况下，我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。

Feb, 2024

使用随机特征学习的精确性能分析

本文研究无法可知函数的学习问题，主要贡献在于使用高斯数据对这种学习问题进行精确的渐近分析。在特征矩阵的温和正则条件下，本文提供了在低参数与高参数模式下渐近的训练和泛化误差的精确刻画。该分析适用于一般的特征矩阵、激活函数和凸损失函数家族。数值结果验证了我们的理论预测，表明我们的渐近发现与所考虑的学习问题的实际表现非常符合，即使在中等维度下也是如此。此外，它们揭示了正则化、损失函数和激活函数在学习中缓解 “双下降现象” 中所发挥的重要作用。

Aug, 2020