Jan, 2021

自私稀疏循环神经网络训练

TL;DR本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。