BriefGPT.xyz
Ask
alpha
关键词
gradient decay
搜索结果 - 2
梯度衰减和逐层蒸馏加速学习视频编解码器
最近几年,端到端学习的视频编码器在压缩效率方面已经显示出与传统编码算法竞争的潜力。然而,大多数基于学习的视频压缩模型与高计算复杂性和延迟相关,特别是在解码器方面,这限制了它们在实际应用中的部署。本文提出了一种基于梯度衰减和自适应分层蒸馏的新
→
PDF
7 months ago
大间隔 Softmax 中概率相关的梯度衰减
本文探究了在神经网络框架中常用的 Softmax,在训练过程中引入渐变衰减超参数控制概率相关的梯度衰减率。作者通过实验发现,梯度衰减率随置信概率上升而凸凹变化,且使用小梯度衰减的优化方式表现出类似于课程学习的顺序,可以说明较大间距的 Sof
→
PDF
2 years ago
Prev
Next