Dec, 2023

精调预训练大型语言模型中的稀疏是足够的

TL;DR通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。