EMNLPSep, 2021

在大型语言模型中培养孩子:朝着有效和具有普适性的微调

TL;DR本篇文章提出了名为 Child-Tuning 的 fine-tuning 技术,通过在反向传播过程中遮盖非子网络的梯度来更新大型预训练模型的子网络的子集,实验结果表明 Child-Tuning 在 GLUE 基准测试的各个下游任务中始终优于普通 fine-tuning,平均分数高出 1.5~8.6 分。此外,领域转移和任务转移的实证结果表明,Child-Tuning 可以大幅提高泛化性能。