May, 2023

Bi-Drop: 适应性子网络优化的预训练语言模型通用微调

TL;DR本研究提出了一种基于 Bi-Drop 的动态微调策略,利用 dropout 生成的各种子模型的梯度信息有选择地更新模型参数,实验表明,Bi-Drop 在 GLUE 基准上表现优异,在多任务或领域转移中,以及数据不平衡和低资源情况下均有显著改进,并具有出色的泛化能力和鲁棒性。