Jun, 2021

Top-KAST: Top-K Always Sparse 训练

TL;DR本文提出了一种名为 Top-KAST 的方法,在训练时保持网络的稀疏性,避免了传统方法在训练时必须实例化 dense 参数或梯度的缺点,实验结果表明,该方法在 ImageNet 基准测试中表现出色,在语言建模领域也有广阔的应用前景。此外,该方法实现简单,易于在现有的机器学习框架中实现,为探索海量模型的潜力提供了可能。