本研究使用非参数变分近似后验分布的样本抽取来解释随机梯度下降,为基于最小下限的对数边际似然的超参数优化提供一种输出,包括神经网络等领域。
Apr, 2015
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
本研究建立了在深度神经网络中应用梯度下降的情况下,驱动逻辑损失为零的条件,并证明了收敛速率的界限。我们的分析适用于 ReLU 的平滑近似,如 Swish 和 Huberized ReLU,并提供两个收敛的充分条件。第一个条件是初始化时对损失的限制,第二个条件是先前分析中使用的数据分离条件。
Feb, 2021
本文研究神经网络的训练,证明使用梯度下降法可以在一定的噪声或污染下保证稳健性,避免过拟合。
Mar, 2019
该论文研究了深度神经网络中过拟合的问题,证明了使用特定的损失函数时神经网络的收敛性及性能,提出了一种实用的判断不同零最小化点泛化性能的方法。
Jun, 2018
本文提出了一种新的基于局部统计梯度的早期停止准则,该准则完全消除了验证集的需要,并在最小二乘法、逻辑回归和神经网络的情况下被证明是一种可行的方法。
Mar, 2017
研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。
Nov, 2018
线性回归问题中,我们分析了离散全批量梯度下降的参数轨迹和期望过度风险,证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价,并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。
Jun, 2024
研究深度神经网络的学习动态,主要关注于二元分类问题。我们证明了网络学习的各种性质,并且在非线性架构下,分类误差也呈现出 sigmoid 形状,证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响,并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后,我们提出了梯度饥饿现象并进行了研究。
Sep, 2018
使用逻辑损失训练的深度神经网络(DNN)在各种二元分类任务中取得了令人印象深刻的进展,然而,关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式,并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率,以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。
Jul, 2023