深度学习非线性混合的随机矩阵视角
通过对等效模型的参数进行研究,本文通过优化非线性激活函数,实现了对给定监督学习问题的改善,验证了这些优化的非线性函数在回归和分类问题中比常用的非线性函数(如 ReLU 函数)具有更好的泛化性能,并且缓解了所谓的 “双峰下降” 现象。
Sep, 2023
研究了两层神经网络中过参数化对学生 - 教师框架的影响,发现只有当学生的隐藏层数量指数级大于输入维度时,才能达到完美的泛化。同时计算了其渐进的泛化误差。
Mar, 2023
本文考虑使用随机特征空间,在测度无限趋近于无限,特征维度和样本量趋近于无穷大的情况下,利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。
Aug, 2019
用随机矩阵理论和自由概率的基本工具简要推导了多种高维岭回归模型的训练和泛化性能,在物理学和深度学习背景的读者中提供了这些主题的介绍和评论。通过自由概率的 $S$ 变换特性,从代数的几行直接获得训练和泛化误差的解析公式,能够直观地识别模型性能的幂律缩放来源。计算了广义类随机特征模型的泛化误差,发现在所有模型中,$S$ 变换对应于训练 - 测试泛化差距,并提供了广义交叉验证估计器的类比。利用这些技术,对具有结构化协变量的非常通用的随机特征模型得到了细粒度的偏差 - 方差分解。这些新颖结果使我们能够发现随机特征模型的缩放区域,在超参数设置中特征的方差限制了性能。我们还演示了随机特征模型中异向权重结构如何限制性能,并导致超参数设置中有限宽度修正的非平凡指数。我们的结果扩展并提供了对早期神经缩放定律模型的统一视角。
May, 2024
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
通过分析随机特征模型在高斯数据的一般监督学习问题中的泛化性能,我们建立了一个在输入维度上的两个主要控制参数:随机特征的数量 N 和训练集的大小 P,都以输入维度 D 为幂次关系的等效多项式模型。我们的结果证明了 N、P 和 D 之间的比例关系,并与数值实验结果定量一致,同时远离渐近极限 D→∞,其中至少一个介于 P/D^K 和 N/D^L 之间的参数保持有限。
Feb, 2024
探讨了一种带 1 个隐藏激活层、任意宽度和 ReLU 激活函数的神经网络,研究了神经网络的偏差,解释了为何神经网络可能更偏好具有更简单的几何形状和为何某些低信息熵函数对于神经网络来说仍然难以近似。
Apr, 2023
本文回顾了最近一系列训练超参数神经网络和学习随机特征的实证结果及其限制性说明,论述了神经网络的理论困境并对其表现出的令人印象深刻的经验结果提出了仍需克服的挑战。
Apr, 2019
我们提供了一种针对大类特征映射的紧密渐近特征错误的表征,其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发,即具有随机但结构化权重的深层非线性全连接网络,它们的行协方差进一步允许依赖于前层的权重。对于这样的网络,我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现,在某些情况下,我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。
Feb, 2024
本文研究无法可知函数的学习问题,主要贡献在于使用高斯数据对这种学习问题进行精确的渐近分析。在特征矩阵的温和正则条件下,本文提供了在低参数与高参数模式下渐近的训练和泛化误差的精确刻画。该分析适用于一般的特征矩阵、激活函数和凸损失函数家族。数值结果验证了我们的理论预测,表明我们的渐近发现与所考虑的学习问题的实际表现非常符合,即使在中等维度下也是如此。此外,它们揭示了正则化、损失函数和激活函数在学习中缓解 “双下降现象” 中所发挥的重要作用。
Aug, 2020