BriefGPT.xyz
Ask
alpha
关键词
constant sparsity
搜索结果 - 1
Top-KAST: Top-K Always Sparse 训练
本文提出了一种名为 Top-KAST 的方法,在训练时保持网络的稀疏性,避免了传统方法在训练时必须实例化 dense 参数或梯度的缺点,实验结果表明,该方法在 ImageNet 基准测试中表现出色,在语言建模领域也有广阔的应用前景。此外,该
→
PDF
3 years ago
Prev
Next