深度神经网络分类的快速收敛速率

Dec, 2018

深度神经网络分类的快速收敛速率

Fast convergence rates of deep neural networks for classification

Yongdai Kim, Ilsang Ohn, Dongha Kim

TL;DR本文研究使用 hinge loss 训练的 ReLU 激活函数的深度神经网络分类器的快速收敛速率，并通过数值研究比较了 hinge loss 和交叉熵作为损失函数时的效果。

Abstract

We derive the fast convergence rates of a deep neural network (DNN) classifier with the rectified linear unit (ReLU) activation function learned using the →

deep neural network relu activation function hinge loss fast convergence rates image recognition

发现论文，激发创造

深度神经网络及对数损失的分类

使用逻辑损失训练的深度神经网络（DNN）在各种二元分类任务中取得了令人印象深刻的进展，然而，关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式，并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率，以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。

Jul, 2023

基于铰链损失训练的深度学习二元分类器的基本限制

通过暴露使用铰链损失训练的基于深度修正线性单元（ReLU）前馈神经网络（FNN）或深度 ReLU 和 Tanh 激活的 FNN 的二元分类器的基本测试性能限制，本文导出了它们各自的新颖渐近测试性能限制，并通过大量的计算机实验验证了这些导出的测试性能限制。

Sep, 2023

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出 sigmoid 形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

关于卷积神经网络学习收敛速度的研究

卷积神经网络的近似和学习能力的研究，证明了满足权重约束的卷积神经网络的新逼近界限，并给出了覆盖神经网络的新分析，从而得到了更好的收敛界限，并利用这两个结果在许多学习问题中推导了基于卷积神经网络的估计器的收敛速度，对于学习平滑函数的非参数回归设置和二元分类中的卷积神经网络分类器的 Hinge 损失和 Logistic 损失，得到了最优的收敛速度。

Mar, 2024

深度神经网络有效地学习非平滑函数

本文阐述了深度神经网络在一定情况下为何比其他模型表现更好，并通过考虑一定类别的非光滑函数，推导了使用 ReLU 激活的 DNN 的估计器的泛化误差，同时说明了 DNN 的收敛速率几乎是最优的，而某些流行的模型则未达到最优速率，这为选择合适的 DNN 层数和边提供了指导。

Feb, 2018

使用铰链损失函数训练浅层 ReLU 网络的噪声数据：过拟合何时发生且是否良性？

本文探讨了使用梯度下降和 hinge loss 在嘈杂数据上训练的两层 ReLU 网络的良性过拟合问题，研究了线性可分数据，给出了干净数据边距的条件，得到了良性过拟合，过拟合和非过拟合三种不同的情况，并揭示了神经元训练过程中的两个不同阶段。

Jun, 2023

神经网络二元分类的损失曲面理解

针对单层神经网络的拟合损失函数，研究神经网络算法中局部极小值的性质，提出当神经元是严格凸函数并且代理损失函数是铰链损失函数的平滑版本时，在所有局部极小值处训练误差为零的条件。同时，通过反例表明当损失函数替换为二次损失或逻辑损失时，该结论可能不成立。

Feb, 2018

使用修正线性单元（ReLU）的深度学习

本研究介绍了在深度神经网络中使用修正线性单元作为分类函数来预测类别，通过将神经网络中的倒数第二层的输出与权重参数相乘得到原始分数，再使用修正线性单元函数进行阈值处理，最后通过 argmax 函数得到分类预测。

Mar, 2018

宽深 ReLU 神经网络的普适一致性及 Kolmogorov-Donoho 最优函数类的极小最优收敛速率

通过广泛且深度的 ReLU 神经网络在逻辑损失上进行训练，我们扩展 FL93 的结果并证明了其分类规则的普遍一致性；此外，我们给出了一类概率测度的充分条件，使得基于神经网络的分类器实现最小极小收敛速度。

Jan, 2024

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018