利用根据逻辑目标加速神经网络训练
使用逻辑损失训练的深度神经网络(DNN)在各种二元分类任务中取得了令人印象深刻的进展,然而,关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式,并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率,以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。
Jul, 2023
通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如 $sigmoid$ 和 $tanh$)的门数量的 $2$ 层神经网络,SGD 能收敛到适当正则化的全局最小值;同时证明了连续时间 SGD 的指数快速收敛性,也适用于平滑的无界激活函数(如 $SoftPlus$)。
Sep, 2023
本文探讨了如何在两层神经网络上使用标准化的梯度下降算法,证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛,并讨论了凸性目标的归纳性及过拟合问题。
May, 2023
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
采用最坏情况下的对数损失最小化方法将公平性标准纳入分布鲁棒性的第一原则,并基于此原则推导出一种新的分类器,该方法具有凸性和渐近收敛性,并在三个基准公平数据集上展示了其实践优势。
Mar, 2019
研究了不同损失函数选择对深度神经网络及其学习动态的影响,证明了 L1 和 L2 损失函数是深度网络分类目标的合理选择,并提出两种新的损失函数作为现有损失函数的可行替代品。
Feb, 2017
本文提出了一种直接损失最小化的方法来训练深度神经网络,特别适用于应用特定的指标,包括提出了新的动态规划算法来高效计算权重更新,最终在行动分类和目标检测方面表现优秀,特别是在存在标签噪声的情况下。
Nov, 2015
本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐 —— 一种隐式正则化方法,详细说明了在套用于严格递减损失函数时(梯度下降的递减步长也是如此):(i) 风险趋近于 0;(ii)标准化的第 i 个权重矩阵渐进等于其秩 - 1 逼近;(iii)这些秩 - 1 矩阵在层之间对齐,即 |vi+1^Tv_i| -> 1。特别地,在逻辑损失(二元交叉熵)的情况下,还可以说更多的结论:网络激发的线性函数 —— 其权重矩阵的乘积 —— 趋向于与最大边际解同方向。这种性质在之前的工作中已被证明,但仅基于对梯度下降的假设,这里的对齐现象可以证明这些假设。
Oct, 2018