基于学生 - 老师框架的随机特征模型的在线学习
本文回顾了最近一系列训练超参数神经网络和学习随机特征的实证结果及其限制性说明,论述了神经网络的理论困境并对其表现出的令人印象深刻的经验结果提出了仍需克服的挑战。
Apr, 2019
在大规模数据训练下,研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现,证明了 SGD 的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于 SGD 的性质,还取决于算法,模型架构和数据集的相互作用。
Jun, 2019
本文探讨了二层 ReLU 神经网络梯度下降训练过程中的特征学习,研究了使用 XOR 函数生成的带标签二进制数据,对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好,而使用梯度下降训练二层 ReLU 神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术,证明了在初始化时,绝大多数神经元都具有随机特征的性质,与有用特征之间的相关性较弱,而梯度下降动态将这些弱随机特征 “放大” 为强有用特征。
Feb, 2022
通过分析随机特征模型在高斯数据的一般监督学习问题中的泛化性能,我们建立了一个在输入维度上的两个主要控制参数:随机特征的数量 N 和训练集的大小 P,都以输入维度 D 为幂次关系的等效多项式模型。我们的结果证明了 N、P 和 D 之间的比例关系,并与数值实验结果定量一致,同时远离渐近极限 D→∞,其中至少一个介于 P/D^K 和 N/D^L 之间的参数保持有限。
Feb, 2024
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
该研究提出了一种新的均场框架用于超参数化深度神经网络的分析,利用概率分布和在连续极限下的功能来表示 DNN,并通过适当的重新参数化将其训练目标重新表述为凸优化问题,构建了一种称为神经特征流的非线性动力学来捕捉超参数化 DNN 的演化,证明了在均场区域中超参数化神经网络训练具有全局收敛性的首个全局收敛证明。
Jul, 2020
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
研究分析使用大型神经网络架构和随机特征回归的深度学习在高维数据集的性能表现,并发现混合非线性函数可提高训练与测试性能,为近似核方法或神经网络架构设计提供了参考。
Dec, 2019
我们提供了一种针对大类特征映射的紧密渐近特征错误的表征,其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发,即具有随机但结构化权重的深层非线性全连接网络,它们的行协方差进一步允许依赖于前层的权重。对于这样的网络,我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现,在某些情况下,我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。
Feb, 2024
本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态,并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解,为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。
May, 2018