ACLDec, 2020

Diff 剪枝实现参数高效的迁移学习

TL;DR提出一种在预训练 - 微调框架下进行参数有效转移学习的简单方法 - 差分裁剪(diff pruning),它将微调视为学习一种针对特定任务的 “diff vector”,该向量附加在预训练的参数向量之上。通过将不同 iable 逼近 L0-norm 惩罚来自适应地修剪 diff 向量以鼓励稀疏性,从而在学习时适应地进行修剪,从而在与完全微调的基准模型相比性能匹配,并且每项任务仅修改预训练模型参数的 0.5%。