Feb, 2024

从 PEFT 到 DEFT:在 Transformer 中减少激活密度的参数高效微调

TL;DR本研究提出了一种新的密度损失方法,促进预训练模型中更高的激活稀疏性,从而实现有效的模型自适应。实验证明,使用我们的方法 DEFT 在不降低下游任务性能的情况下,可以在 RoBERTa_Large 上减少激活密度达到 50.72%,在 Flan-T5_XXL(11B)上分别减少编码器密度为 53.19%,解码器密度为 90.60%,相较于使用 GLUE 和 QA(SQuAD)基准的 PEFT。我们还展示 DEFT 可以与量化和修剪模型互补使用。