BriefGPT.xyz
大模型
Ask
alpha
关键词
snt-asgd
搜索结果 - 1
自私稀疏循环神经网络训练
本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext
→
PDF
3 years ago
Prev
Next