在其正比不变空间中优化 ReLU 神经网络的 G-SGD
研究了循环神经网络参数空间的几何形状,并开发了一种适应于该几何形状的路径 - SGD 优化方法,它可以学习具有 ReLU 激活的普通 RNN。在一些需要捕捉长期依赖结构的数据集上,我们证明 path-SGD 可以显著提高 ReLU RNN 的可训练性,与使用 SGD 训练的 RNN 相比,即使使用各种最近推荐的初始化方案。
May, 2016
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
Mar, 2018
研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。
Nov, 2018
通过研究单神经元 ReLU 网络的梯度流动力学,发现了支持向量的隐式偏差,这在解释 ReLU 网络为何具有良好的泛化能力中起着关键作用;此外,证明了对于二维情况下单个神经元的全局收敛性,并分析了在梯度流的条件下学习权重范数的严格增长。
Feb, 2022
本文提出了适用于 ReLU 神经网络的 Banach 空间,其中包含了所有有限全连接 L 层网络及其 L^2 - 极限对象,具有低的 Rademacher 复杂性和良好的泛化特性,函数可以通过多层神经网络进行近似,收敛速率与维度无关。
Jul, 2020
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
本文分析了使用随机梯度下降(SGD)训练包含 ReLU 激活函数的两层前馈神经网络中所谓的 “恒等映射” 结构和高斯分布输入的情况下 SGD 收敛的机理,并通过实验证明使用该结构的多层神经网络具有比普通神经网络更好的性能。
May, 2017
通过 ReLu 网络,我们研究解决线性逆问题的可能性。我们证明了使用一个隐藏层的 ReLu 网络无法恢复 1 稀疏向量,但通过两个隐藏层可以以任意精度和任意稀疏度稳定地进行近似恢复,并且我们还将结果推广到包括低秩矩阵恢复和相位恢复在内的更广泛的恢复问题。此外,我们还考虑了使用神经网络来近似一般的正齐次函数,并且我们的结果解释了神经网络在逆问题中通常具有非常大的利普希茨常数,但在对抗性噪声下表现良好的前期矛盾。
Aug, 2023
通过深门控网络作为框架,理论分析和实验验证了几种 DGNs 变体,阐述了深度神经网络的训练和泛化方面的问题,着重讨论了为什么增加深度能帮助训练到一定程度,而增加深度会伤害训练,以及证明了门控自适应在泛化中的关键作用。
Feb, 2020