具有平滑 ReLU 激活函数的深度神经网络使用逻辑损失梯度下降插值的时间

Feb, 2021

具有平滑 ReLU 激活函数的深度神经网络使用逻辑损失梯度下降插值的时间

When does gradient descent with logistic loss interpolate using deep networks with smoothed ReLU activations?

Niladri S. Chatterji, Philip M. Long, Peter L. Bartlett

TL;DR本研究建立了在深度神经网络中应用梯度下降的情况下，驱动逻辑损失为零的条件，并证明了收敛速率的界限。我们的分析适用于 ReLU 的平滑近似，如 Swish 和 Huberized ReLU，并提供两个收敛的充分条件。第一个条件是初始化时对损失的限制，第二个条件是先前分析中使用的数据分离条件。

Abstract

We establish conditions under which gradient descent applied to fixed-width deep networks drives the logistic loss to zero, and prove boun

gradient descent deep networks logistic loss relu convergence

发现论文，激发创造

深度神经网络及对数损失的分类

使用逻辑损失训练的深度神经网络（DNN）在各种二元分类任务中取得了令人印象深刻的进展，然而，关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式，并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率，以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。

Jul, 2023

梯度下降最大化同质神经网络的边界

研究了梯度下降算法在同质神经网络中的隐式正则化，重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model，探讨了规范化边缘的平滑版本，形成了一个关于边缘最大化的优化问题，给出了算法的渐进性能，并讨论了通过训练提高模型鲁棒性的潜在好处。

Jun, 2019

随机梯度下降优化超参数化的深度 ReLU 网络

研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。

Nov, 2018

浅层一元 ReLU 网络的梯度动力学

本文介绍了在一个维度输入下，解决最小二乘插值的超参数化浅层 ReLU 网络的梯度动态的理论和实证研究，阐述了这种网络的梯度动态通过网络函数的非冗余参数化来确定，同时还研究了两种学习模式：核函数和自适应函数，以及它们所对应的性质。

Jun, 2019

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

提前停止的神经网络具有一致性

研究使用逻辑损失的梯度下降训练 ReLU 网络在二元分类数据上的行为，证明通过提前停止的梯度下降可以在总体风险上接近最优，并获得概率校准。

Jun, 2021

全局收敛性：适用于两层神经网络逻辑损失的随机梯度下降（SGD）

通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展，本文首次证明了对于任意数据和具有适当平滑和有界激活函数（如 $sigmoid$ 和 $tanh$）的门数量的 $2$ 层神经网络，SGD 能收敛到适当正则化的全局最小值；同时证明了连续时间 SGD 的指数快速收敛性，也适用于平滑的无界激活函数（如 $SoftPlus$）。

Sep, 2023

深度 ReLU 网络的逼近误差界

研究一维 Lipschitz 函数的逼近中，深层 ReLU 网络比浅层网络更有效地逼近光滑函数，采用自适应深度 6 网络体系结构比标准浅层网络更有效。

Oct, 2016

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

关于使用线性宽度进行深度 ReLU 网络梯度下降全局收敛的证明

本文利用 Lipschitz 性质，仅需跟踪最后一个隐藏层的输出的演变，即可证明标准平方误差梯度下降可在单个宽层的 ReLU 网络中实现全局收敛，并显示了一些其跟先前的技术相比的改进。

Jan, 2021