两层神经网络的梯度下降: 边界最大化和简化偏差
本文研究表明,在神经网络中使用ReLU激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
通过研究多层前馈ReLU神经网络、交叉熵损失函数、核方法等工具,我们发现标准l2正则化器在实际应用中具有很大优越性,并且通过构造一个简单的d维数据集,我们证明了有正则化器的神经网络只需要O(d)的数据集就能训练成功,而对于无正则化器的NTK神经网络,则需要至少Omega(d^2)的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
该论文分析了一个简单的2层ReLU网络的训练和泛化,通过对相关内核的特性进行追踪,提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。
Jan, 2019
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
通过对深度神经网络上梯度下降算法的实证研究发现,通过训练集中带宽分布曲线的曲线下面积来量化模型的泛化性能是更精确的方法,并且在加入批量规范化和权重衰减的情况下得到的训练点会收敛到同一个渐近边界,但其高容量特征并不一致。
Jul, 2021
本文探讨了如何在两层神经网络上使用标准化的梯度下降算法,证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛,并讨论了凸性目标的归纳性及过拟合问题。
May, 2023
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了GD在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的GD在经历这种阶段过渡时比单调降低风险的GD更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024
本研究解决了在过参数化设置下,传统的梯度下降法在样本大小和Gram矩阵依赖性差导致训练缓慢的问题。我们提出了一种新的改进学习率方法,使其在L2回归问题中从$\mathcal{O}(\lambda_0/n^2)$提升到$\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$,并将其扩展至物理信息神经网络,展示了更快的收敛速度。这一发现将提高PINNs的训练效率,具有重要的应用潜力。
Aug, 2024
本文探讨了过参数化神经网络的泛化问题,传统方法通常基于插值观点,未能与更复杂的任务相适应。研究表明,在训练样本数超过某一优化阈值后,模型更倾向于向简单解收敛,而非简单插值,这一现象有助于改善模型的泛化能力,并显著降低测试损失。
Oct, 2024