BriefGPT.xyz
Ask
alpha
关键词
exploding and vanishing gradient problem
搜索结果 - 2
UnICORNN: 用于学习非常长时间依赖关系的循环模型
本文提出了一种基于哈密顿系统的离散化的循环神经网络架构,解决长时依赖序列输入处理的梯度消失和爆炸问题,实验表明该方法在各种学习任务中提供了最先进的性能。
PDF
3 years ago
ICLR
h-detach:修改 LSTM 梯度以实现更好的优化
本文介绍了一种针对长期依赖问题的 LSTM 优化方案,通过采用一种简单的随机算法(h-detach)可以避免梯度消失问题,通过提升梯度在计算图中的表现,进而提高模型优化的鲁棒性效果,使 LSTM 捕获更好的长期依赖关系并在多个基准数据集上显
→
PDF
6 years ago
Prev
Next