学习可分数据的两层神经网络的快速收敛
本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明SGD、GD、RCD和SVRG等优化算法的稳定性在PL和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在PL设置下SGD稳定,但GD不稳定。
Oct, 2017
通过学习两层的过参数化神经网络在使用Leaky ReLU激活函数的情况下,为SGD进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
本文探讨了采用SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于$L_2$最大裕度向量,且损失以$O(1/t)$的速率收敛。
Jun, 2018
通过研究多层前馈ReLU神经网络、交叉熵损失函数、核方法等工具,我们发现标准l2正则化器在实际应用中具有很大优越性,并且通过构造一个简单的d维数据集,我们证明了有正则化器的神经网络只需要O(d)的数据集就能训练成功,而对于无正则化器的NTK神经网络,则需要至少Omega(d^2)的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
本文研究了Leaky ReLU神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的“max-margin”解,同时还对梯度下降在训练初期的“简单度偏向”现象进行了理论解释。
Oct, 2021
通过分析随机梯度下降算法在Frobenius范数正则化的$logistic$损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如$sigmoid$和$tanh$)的门数量的$2$层神经网络,SGD能收敛到适当正则化的全局最小值;同时证明了连续时间SGD的指数快速收敛性,也适用于平滑的无界激活函数(如$SoftPlus$)。
Sep, 2023
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了GD在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的GD在经历这种阶段过渡时比单调降低风险的GD更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024
本研究针对超参数设定下的梯度下降方法收敛缓慢的问题,提出了自然梯度下降(NGD)在训练物理信息神经网络(PINNs)时的收敛分析。通过改进学习率至$\mathcal{O}(1)$,研究表明与格兰矩阵无关,显著提高了收敛速度,具有重要的理论和实践意义。
Aug, 2024
本研究解决了在过参数化设置下,传统的梯度下降法在样本大小和Gram矩阵依赖性差导致训练缓慢的问题。我们提出了一种新的改进学习率方法,使其在L2回归问题中从$\mathcal{O}(\lambda_0/n^2)$提升到$\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$,并将其扩展至物理信息神经网络,展示了更快的收敛速度。这一发现将提高PINNs的训练效率,具有重要的应用潜力。
Aug, 2024