利用根据逻辑目标加速神经网络训练

Oct, 2023

利用根据逻辑目标加速神经网络训练

Accelerated Neural Network Training with Rooted Logistic Objectives

Zhu Wang, Praveen Raj Veluswami, Harsh Mishra, Sathya N. Ravi

TL;DR基于逻辑函数的严格凸函数序列用于优化神经网络的训练，通过增加严格凸函数的约束提高了收敛速度和性能。

Abstract

Many neural networks deployed in the real world scenarios are trained using cross entropy based loss functions. From the optimization perspective, it is known that the behavior of first order methods such as grad

neural networks cross entropy separability logistic function rooted loss function

发现论文，激发创造

深度神经网络及对数损失的分类

使用逻辑损失训练的深度神经网络（DNN）在各种二元分类任务中取得了令人印象深刻的进展，然而，关于 DNN 和逻辑损失的二元分类的泛化分析仍然很少。本文旨在通过建立一种新颖而优雅的 oracle-type 不等式，并利用它推导全连接的 ReLU DNN 分类器在逻辑损失下的尖锐收敛速率，以填补这一空白。此结果解释了为什么 DNN 分类器在实际高维分类问题中表现良好。

Jul, 2023

使用不可分解目标训练超参数模型

本文提出一种新的代价敏感损失函数，以解决标签代价权重重新加权训练在过度参数化模型中可能导致的问题，并进行了 ResNet 模型的实验验证。

Jul, 2021

全局收敛性：适用于两层神经网络逻辑损失的随机梯度下降（SGD）

通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展，本文首次证明了对于任意数据和具有适当平滑和有界激活函数（如 $sigmoid$ 和 $tanh$）的门数量的 $2$ 层神经网络，SGD 能收敛到适当正则化的全局最小值；同时证明了连续时间 SGD 的指数快速收敛性，也适用于平滑的无界激活函数（如 $SoftPlus$）。

Sep, 2023

学习可分数据的两层神经网络的快速收敛

本文探讨了如何在两层神经网络上使用标准化的梯度下降算法，证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛，并讨论了凸性目标的归纳性及过拟合问题。

May, 2023

分离数据梯度下降的隐式偏差

本研究发现，在无正则化的逻辑回归问题、线性可分数据集上，使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢，方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。

Oct, 2017

稳健对数损失分类的公平性

采用最坏情况下的对数损失最小化方法将公平性标准纳入分布鲁棒性的第一原则，并基于此原则推导出一种新的分类器，该方法具有凸性和渐近收敛性，并在三个基准公平数据集上展示了其实践优势。

Mar, 2019

深度神经网络分类中的损失函数

研究了不同损失函数选择对深度神经网络及其学习动态的影响，证明了 L1 和 L2 损失函数是深度网络分类目标的合理选择，并提出两种新的损失函数作为现有损失函数的可行替代品。

Feb, 2017

逻辑回归：随机和在线优化的紧密边界

本研究探讨了逻辑损失与其他广泛考虑的选项（如铰接损失）的区别，结论认为逻辑损失函数并没有优势。

May, 2014

通过直接损失最小化训练深度神经网络

本文提出了一种直接损失最小化的方法来训练深度神经网络，特别适用于应用特定的指标，包括提出了新的动态规划算法来高效计算权重更新，最终在行动分类和目标检测方面表现优秀，特别是在存在标签噪声的情况下。

Nov, 2015

梯度下降对齐深度线性网络的层

本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐 —— 一种隐式正则化方法，详细说明了在套用于严格递减损失函数时（梯度下降的递减步长也是如此）：(i) 风险趋近于 0；（ii）标准化的第 i 个权重矩阵渐进等于其秩 - 1 逼近；（iii）这些秩 - 1 矩阵在层之间对齐，即 |vi+1^Tv_i| -> 1。特别地，在逻辑损失（二元交叉熵）的情况下，还可以说更多的结论：网络激发的线性函数 —— 其权重矩阵的乘积 —— 趋向于与最大边际解同方向。这种性质在之前的工作中已被证明，但仅基于对梯度下降的假设，这里的对齐现象可以证明这些假设。

Oct, 2018