Jun, 2024

SLTrain:一种用于参数和内存高效预训练的稀疏低秩方法

TL;DR通过在预训练中将权重参数化为低秩和稀疏矩阵之和,我们提出了一种称为 SLTrain 的方法,它通过矩阵分解学习低秩部分,然后使用随机固定支撑稀疏学习策略学习非零条目,这种策略显著提高了预训练性能。与低秩参数化预训练相比,SLTrain 几乎没有额外的参数和内存开销,但实现了与完全秩训练相当的性能。当与量化和逐层更新相结合时,SLTrain 可以将内存要求降低高达 73%。