Feb, 2021

具有平滑 ReLU 激活函数的深度神经网络使用逻辑损失梯度下降插值的时间

TL;DR本研究建立了在深度神经网络中应用梯度下降的情况下,驱动逻辑损失为零的条件,并证明了收敛速率的界限。我们的分析适用于 ReLU 的平滑近似,如 Swish 和 Huberized ReLU,并提供两个收敛的充分条件。第一个条件是初始化时对损失的限制,第二个条件是先前分析中使用的数据分离条件。