神经网络可以使用梯度下降学习表示
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
通过研究使用神经切向核(NTK)优化方法来训练的网络,本文对使用梯度下降训练的网络建立了类似的结果,以扩展逼近结果的平滑性,从而显示了这两种理论的兼容性。
May, 2024
利用动态再生核赋范空间方法研究神经网络的逼近和表示优势,证明其自适应核函数表示比经典非参数方法中的预先指定的固定基础表示更具优势,同时通过渐进正则化说明其渐进收敛性。
Jan, 2019
本文指出了中间神经表现添加了深度学习网络的灵活性并且在原始输入上具有优势,并阐述了与浅学习者,如卷积内核的神经表现的关系。通过学习低秩的多项式,中间神经表现可以实现比原始输入更少的样本复杂度,并且在神经可切内核的情况下,本文还提出了神经表现不利的限制。
Jun, 2020
利用梯度下降证明了学习单层神经网络的第一个超多项式下限,它包括使用小批量的梯度下降,需要锐利的激活函数和适用于特定查询的以前结果。与以前的结果不同,我们的结果适用于包括 ReLU 和 sigmoid 在内的广泛激活类别,并且围绕一种新型神经网络的结构构建。
Jun, 2020
研究神经网络在激活层和输出加权和层下的训练复杂性,并在高斯分布条件下证明 GD 收敛于最好逼近目标函数的多项式的最小误差,并发现 GD 在发现低频傅立叶分量之前要先发现高频分量。
May, 2018
本文研究了通过神经网络算法实现各种模型的多项式时间可学习性,证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式,以及学习某些内核空间,并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。
Nov, 2019
本文研究采用梯度下降算法学习双层神经网络,证明其具有多项式样本和多项式时间复杂度,且可以学习到真实网络,而任何具有多项式样本的核方法均具有 Omega 误差下限。
Jul, 2020