大间隔 Softmax 中概率相关的梯度衰减

Oct, 2022

大间隔 Softmax 中概率相关的梯度衰减

Probability-Dependent Gradient Decay in Large Margin Softmax

Siyuan Zhang, Linbo Xie, Ying Chen

TL;DR本文探究了在神经网络框架中常用的 Softmax，在训练过程中引入渐变衰减超参数控制概率相关的梯度衰减率。作者通过实验发现，梯度衰减率随置信概率上升而凸凹变化，且使用小梯度衰减的优化方式表现出类似于课程学习的顺序，可以说明较大间距的 Softmax 将影响损失函数的局部 Lipschitz 约束。在分析结果的基础上，作者提出了一种 “热身策略” 来动态调整训练中的 Softmax 损失，从而加快收敛速度。

Abstract

In the past few years, softmax has become a common component in neural network frameworks. In this paper, a gradient decay hyperparameter is introduced in →

softmax gradient decay mnist cifar-10/100 curriculum learning

发现论文，激发创造

卷积神经网络大边界 Softmax 损失

本文提出了 L-Softmax loss 作为一种广义的大边际 softmax（L-Softmax）损失函数，可以显式地鼓励所学特征的类内紧密性和类间可分性，并且能够调整想要的边际并避免过拟合，并在四个基准数据集上进行了广泛实验，结果表明使用 L-Softmax 且深度学习的特征更具有区分度，从而大大提高了各种视觉分类和验证任务的性能。

Dec, 2016

分类边界的分布：所有数据是否平等？

通过对深度神经网络上梯度下降算法的实证研究发现，通过训练集中带宽分布曲线的曲线下面积来量化模型的泛化性能是更精确的方法，并且在加入批量规范化和权重衰减的情况下得到的训练点会收敛到同一个渐近边界，但其高容量特征并不一致。

Jul, 2021

梯度下降最大化同质神经网络的边界

研究了梯度下降算法在同质神经网络中的隐式正则化，重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model，探讨了规范化边缘的平滑版本，形成了一个关于边缘最大化的优化问题，给出了算法的渐进性能，并讨论了通过训练提高模型鲁棒性的潜在好处。

Jun, 2019

两层神经网络的梯度下降：边界最大化和简化偏差

本文研究了 Leaky ReLU 神经网络的全局最优性，证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解，同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。

Oct, 2021

非齐次双层网络的大步长梯度下降法：边界改善与快速优化

神经网络的大步梯度下降（GD）训练通常包括两个不同的阶段，第一阶段中经验风险震荡，而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值（依赖于步长）的时刻。此外，我们展示了归一化边界在第二阶段几乎单调增长，证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零，我们证明平均经验风险下降，暗示第一阶段必须在有限步骤中停止。最后，我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络，超出了众所周知的神经切线核和平均场范围。

Jun, 2024

WNGrad: 梯度下降中的学习率学习

我们提出了一种具有鲁棒性、适用于批量和随机梯度下降的学习率的非线性更新规则，该方法可实现基于梯度观察的学习率逐步降低，最终达到高效收敛。

Mar, 2018

通过动态边距最大化和改进的 Lipschitz 正则化实现的认证鲁棒性

通过开发一个鲁棒的训练算法和有效计算神经网络的 Lipschitz 常数的方法，可以直接操控输入空间的决策边界，提高深度分类器对抗性扰动的鲁棒性。在 MNIST、CIFAR-10 和 Tiny-ImageNet 数据集上的实验证实了该算法的竞争性改进。

Sep, 2023

边缘的恶魔：基于边缘的标签平滑方法用于网络校准

本文研究了深度神经网络在预测时存在过度自信的问题，并提出了一种基于不等式约束的优化方法，以达到最佳判别性能和预测校准性能的折中。

Nov, 2021

分类的大边缘判别损失

这篇论文介绍了一种在深度学习背景下具有较大边界的新型判别性损失函数，通过提高神经网络的判别能力，即类内紧凑性和类间可分性，来优化特征空间，同时通过数学分析关系、设计策略和研究泛化误差，提高模型的测试准确性。

May, 2024

学习最大边界

本文提出采用最大化间隔损失的优化目标，定义类间隔与样本间隔，推导出广义的间隔 softmax 损失，并在此基础上设计出新工具，即样本间隔正则化、适用于类均衡情形的最大间隔 softmax 损失和适用于类不平衡情形的零中心正则化。实验结果表明，本文的方法对于视觉分类、样本不平衡分类、人员重新识别和人脸验证等任务具有很好的效果。

Jun, 2022