Oct, 2022

大间隔 Softmax 中概率相关的梯度衰减

TL;DR本文探究了在神经网络框架中常用的 Softmax,在训练过程中引入渐变衰减超参数控制概率相关的梯度衰减率。作者通过实验发现,梯度衰减率随置信概率上升而凸凹变化,且使用小梯度衰减的优化方式表现出类似于课程学习的顺序,可以说明较大间距的 Softmax 将影响损失函数的局部 Lipschitz 约束。在分析结果的基础上,作者提出了一种 “热身策略” 来动态调整训练中的 Softmax 损失,从而加快收敛速度。