May, 2024

大型语言模型微调中的稀疏矩阵

TL;DR通过选择稀疏子矩阵以减少计算资源开销和内存消耗,我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法,用于填补参数有效微调(PEFT)与完全微调(FT)之间的性能差距,并在多个任务中展示了其超越了其他 PEFT 的基准方法(如 LoRA 和 DoRA),同时与 FT 相比,GPU 内存占用减少了 67%。