提前停止的神经网络具有一致性 | BriefGPT - AI 论文速递

Jun, 2021

提前停止的神经网络具有一致性

Early-stopped neural networks are consistent

Ziwei Ji, Justin D. Li, Matus Telgarsky

TL;DR研究使用逻辑损失的梯度下降训练 ReLU 网络在二元分类数据上的行为，证明通过提前停止的梯度下降可以在总体风险上接近最优，并获得概率校准。

Abstract

This work studies the behavior of shallow relu networks trained with the logistic loss via gradient descent on binary classification data

relu networks gradient descent early stopping bayes risk binary classification

发现论文，激发创造

早停法是非参数变分推断

本研究使用非参数变分近似后验分布的样本抽取来解释随机梯度下降，为基于最小下限的对数边际似然的超参数优化提供一种输出，包括神经网络等领域。

Apr, 2015

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

具有平滑 ReLU 激活函数的深度神经网络使用逻辑损失梯度下降插值的时间

本研究建立了在深度神经网络中应用梯度下降的情况下，驱动逻辑损失为零的条件，并证明了收敛速率的界限。我们的分析适用于 ReLU 的平滑近似，如 Swish 和 Huberized ReLU，并提供两个收敛的充分条件。第一个条件是初始化时对损失的限制，第二个条件是先前分析中使用的数据分离条件。

Feb, 2021

早停梯度下降在过度参数化的神经网络上被证明对标签噪声具有鲁棒性

本文研究神经网络的训练，证明使用梯度下降法可以在一定的噪声或污染下保证稳健性，避免过拟合。

Mar, 2019

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

无需验证集的早停算法

本文提出了一种新的基于局部统计梯度的早期停止准则，该准则完全消除了验证集的需要，并在最小二乘法、逻辑回归和神经网络的情况下被证明是一种可行的方法。

Mar, 2017

随机梯度下降优化超参数化的深度 ReLU 网络

研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。

Nov, 2018

关于最小二乘回归的早停规则

线性回归问题中，我们分析了离散全批量梯度下降的参数轨迹和期望过度风险，证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价，并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。

Jun, 2024

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出 sigmoid 形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

深度神经网络及对数损失的分类

使用逻辑损失训练的深度神经网络（DNN）在各种二元分类任务中取得了令人印象深刻的进展，然而，关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式，并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率，以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。

Jul, 2023