BriefGPT.xyz
Ask
alpha
关键词
density loss
搜索结果 - 1
从 PEFT 到 DEFT:在 Transformer 中减少激活密度的参数高效微调
本研究提出了一种新的密度损失方法,促进预训练模型中更高的激活稀疏性,从而实现有效的模型自适应。实验证明,使用我们的方法 DEFT 在不降低下游任务性能的情况下,可以在 RoBERTa_Large 上减少激活密度达到 50.72%,在 Fla
→
PDF
5 months ago
Prev
Next