May, 2023
Bi-Drop: 适应性子网络优化的预训练语言模型通用微调
Bi-Drop: Generalizable Fine-tuning for Pre-trained Language Models via Adaptive Subnetwork Optimization
Shoujie Tong, Heming Xia, Damai Dai, Tianyu Liu, Binghuai Lin...
TL;DR本研究提出了一种基于 Bi-Drop 的动态微调策略,利用 dropout 生成的各种子模型的梯度信息有选择地更新模型参数,实验表明,Bi-Drop 在 GLUE 基准上表现优异,在多任务或领域转移中,以及数据不平衡和低资源情况下均有显著改进,并具有出色的泛化能力和鲁棒性。