BitFit: 面向基于 Transformer 的掩码语言模型的简单参数高效微调

ACLJun, 2021

BitFit: 面向基于 Transformer 的掩码语言模型的简单参数高效微调

BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models

Elad Ben Zaken, Shauli Ravfogel, Yoav Goldberg

TL;DR介绍了 BitFit 方法，该方法在模型的偏置项（或其中的子集）被修改时进行了稀疏微调。使用小到中等规模的训练数据，将 BitFit 应用于预训练的 BERT 模型与整个模型微调相比具有竞争力（有时甚至更优）。对于更大的数据，该方法与其他稀疏微调方法具有竞争力。此外，这些发现与理解微调的常用过程的问题相关，他们支持这样的假设：微调主要是关于展示由语言建模训练产生的知识，而不是学习新的任务特定的语言知识。

Abstract

We introduce bitfit, a sparse-finetuning method where only the bias-terms of the model (or a subset of them) are being modified. We show that with small-to-medium training data, applying →

bitfit sparse-finetuning pre-trained bert models language-modeling training task-specific linguistic knowledge

发现论文，激发创造

大型预训练语言模型的高效微调方法的实证分析

为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集（MRPC、COLA、STS-B）上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头，在不同数量的训练数据和时间限制下，与全模型微调相当。即使只使用 30% 的数据，它也表现出明显的稳定性，在中等数据水平上优于全模型微调。适配器模块的性能变异较大，在默认模型上的收益一致性较差。研究结果表明，BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角，强调了其鲁棒性，并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南，同时展示了适配器模块等稳定技术面临的挑战。

Jan, 2024

SPAFIT: 分层渐进调适微调预训练大型语言模型

本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法，称为 Stratified Progressive Adaptation Fine-tuning（SPAFIT）。我们在 GLUE 基准测试中进行的实验证明，我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下，优于其他 PEFT 方法。

Apr, 2024

无需增加延迟的参数高效微调

本文提出了一种任务不可知的生成稀疏掩码的方法，仅使用预训练参数的振幅信息，可以显著提高性能和存储效率，并引入了一种新颖的适配器技术，可以直接应用于预训练参数，与全细调速度相同。

May, 2023

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

基础模型偏置项差分隐私微调

提出了一种不修改网络架构、参数高效、计算高效的模型无关机制 DP-BiTFiT，实现了对长序列和高分辨率图片的隐私保护微调，达到了 DP 算法的最高精度及标准微调的效率，其速度和内存使用量是 DP full fine-tuning 的 2-30 倍和 2-8 倍，使得现有隐私保护微调方法的计算难点得以攻克。

Sep, 2022

随机屏蔽找到参数高效微调的优胜票

通过使用随机遮挡（Random Masking）方法，本研究探讨了参数高效微调（PEFT）的极限，展示了随机遮挡方法的出人意料的有效性，并证明了遮挡引导的损失平面更平缓、解决方案更分散，这使得可以使用更大的学习率来匹配标准 PEFT 算法在各种任务中的性能，而使用更少的可训练参数。

May, 2024

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

SlimFit: 使用训练动态的 Transformer-based 模型的高效内存微调

SlimFit 可将 Transformer-based 模型的 GPU 内存需求减少至 2.2 倍，动态分析训练动态并在 fine-tuning 期间冻结一部分层，可用于 NLP 和 CV 任务。

May, 2023

精调预训练大型语言模型中的稀疏是足够的

通过研究下游领域的损失函数从随机初始化到预训练初始化的变换，本文揭示了参数梯度稀疏性的特性，提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT)，并在多个任务上验证了其有效性。

Dec, 2023

用于跨语言迁移的可组合稀疏微调

本研究提出了一种新的微调方法，使用模板细分，减少模型参数，并结合多种语言的神经网络，取得了优于适配器微调的零 - shot 跨语言转移性能。

Oct, 2021