Bi-Drop: 适应性子网络优化的预训练语言模型通用微调

May, 2023

Bi-Drop: 适应性子网络优化的预训练语言模型通用微调

Bi-Drop: Generalizable Fine-tuning for Pre-trained Language Models via Adaptive Subnetwork Optimization

Shoujie Tong, Heming Xia, Damai Dai, Tianyu Liu, Binghuai Lin...

TL;DR本研究提出了一种基于 Bi-Drop 的动态微调策略，利用 dropout 生成的各种子模型的梯度信息有选择地更新模型参数，实验表明，Bi-Drop 在 GLUE 基准上表现优异，在多任务或领域转移中，以及数据不平衡和低资源情况下均有显著改进，并具有出色的泛化能力和鲁棒性。

Abstract

pretrained language models have achieved remarkable success in a variety of natural language understanding tasks. Nevertheless, finetuning large pretrained models on downstream tasks is susceptible to overfitting if the training set is limited, which will lead to diminished performance

pretrained language models bi-drop fine-tuning generalization robustness

发现论文，激发创造

通过自适应优化子网络有效地微调预训练语言模型

本文提出了一种基于梯度反向传播的动态参数选择（DPS）算法，以在有限的目标数据集上对大规模预训练语言模型进行微调，该方法在 GLUE 基准测试中显示出相对于以前的微调方法性能更好且更稳定，并在跨领域转移实验和低资源场景中表现出更好的结果，从而减少了表示崩溃的情况。

Nov, 2022

为生物医学自然语言处理调整大型神经语言模型

本文系统研究了微生物 NLP 中 fine-tuning 的稳定性，提出了一系列技术来解决这个问题，并通过领域特定词汇和预训练来建立更健壮的模型。

Dec, 2021

预训练表示的双调谐

本文提出 Bi-tuning，一种细调深度学习模型的新方法，能同时利用监督和无监督预训练，并综合使用有标签数据的判别信息和无标签数据的数据结构，相较于现有策略，在精度上有了长足的提升。

Nov, 2020

通过参数高效的迁移学习探索多功能生成式语言模型

本文提出一种有效的方式，利用单个、大型的预训练模型同时微调多个下游生成任务，以实现内存有效性的提升，同时在五个多样化的自然语言生成任务上的实验结果表明，仅使用每个任务额外的 2-3% 的参数，我们的模型可以维持或甚至提高整个模型的微调性能。

Apr, 2020

信息引导的正则化用于微调语言模型

传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略，但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响，并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法，名为 guided dropout。通过实证评估表明，相比于标准基线，在数据稀缺的情况下，我们的正则化方法始终能够得到更好的性能。

Jun, 2024

基础模型偏置项差分隐私微调

提出了一种不修改网络架构、参数高效、计算高效的模型无关机制 DP-BiTFiT，实现了对长序列和高分辨率图片的隐私保护微调，达到了 DP 算法的最高精度及标准微调的效率，其速度和内存使用量是 DP full fine-tuning 的 2-30 倍和 2-8 倍，使得现有隐私保护微调方法的计算难点得以攻克。

Sep, 2022

通过不间断学习探索预训练跨语言模型的微调技巧

针对 fine-tuning 预训练语言模型后其跨语言能力减弱的问题，该研究提出了一种利用 continual learning 来保持其原有跨语言能力的方法，并在句子检索、跨语言词性标注和命名实体识别等任务中达到更好的性能。

Apr, 2020

大型预训练语言模型的高效微调方法的实证分析

为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集（MRPC、COLA、STS-B）上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头，在不同数量的训练数据和时间限制下，与全模型微调相当。即使只使用 30% 的数据，它也表现出明显的稳定性，在中等数据水平上优于全模型微调。适配器模块的性能变异较大，在默认模型上的收益一致性较差。研究结果表明，BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角，强调了其鲁棒性，并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南，同时展示了适配器模块等稳定技术面临的挑战。

Jan, 2024

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

具有语言特定子网络的数据有效跨语言转移

本文提出了一种在多语言模型中使用语言特定的子网络的新方法，以控制跨语言参数共享，减少冲突，并在微调过程中增加正向迁移能力，结合元学习技术进行优化，通过广泛的分析验证了方法对模型的影响。

Oct, 2022