May, 2024

稀疏最大更新参数化:一种稀疏训练动态的整体方法

TL;DR通过重新参数化超参数,SμPar 可以在不同的稀疏度级别和模型宽度变化时实现相同的最优超参数值,以解决稀疏神经网络的挑战,并在大规模语言建模中实现高达 8.2%的损失改进。