大型预训练语言模型的高效微调方法的实证分析

Jan, 2024

大型预训练语言模型的高效微调方法的实证分析

Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models

Nigel Doering, Cyril Gorlla, Trevor Tuttle, Adhvaith Vijay

TL;DR为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集（MRPC、COLA、STS-B）上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头，在不同数量的训练数据和时间限制下，与全模型微调相当。即使只使用 30% 的数据，它也表现出明显的稳定性，在中等数据水平上优于全模型微调。适配器模块的性能变异较大，在默认模型上的收益一致性较差。研究结果表明，BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角，强调了其鲁棒性，并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南，同时展示了适配器模块等稳定技术面临的挑战。

Abstract

fine-tuning large pre-trained language models for downstream tasks remains a critical challenge in natural language processing. This paper presents an empirical analysis comparing two efficient →

fine-tuning bitfit adapter modules glue benchmark pre-trained language models

发现论文，激发创造

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

BitFit: 面向基于 Transformer 的掩码语言模型的简单参数高效微调

介绍了 BitFit 方法，该方法在模型的偏置项（或其中的子集）被修改时进行了稀疏微调。使用小到中等规模的训练数据，将 BitFit 应用于预训练的 BERT 模型与整个模型微调相比具有竞争力（有时甚至更优）。对于更大的数据，该方法与其他稀疏微调方法具有竞争力。此外，这些发现与理解微调的常用过程的问题相关，他们支持这样的假设：微调主要是关于展示由语言建模训练产生的知识，而不是学习新的任务特定的语言知识。

Jun, 2021

预训练语言模型适应的基于转换器的调整方法的有效性研究

本文研究了基于 Adapter 的微调方法。实验证明，对于某些具有挑战性的任务，Adapter-based tuning 方法比 fine-tuning 效果更好，并且更抗过拟合和更不敏感于学习率的变化。

Jun, 2021

适配器效率的全面分析

通过对多个 adapter、任务和语言在有监督和跨语言零 - shot 设置中进行广泛实验，作者发现对于自然语言理解任务，adapter 的参数效率并不会转化为与全微调一样的效率优势。同时，使用多任务训练通过全微调也能达到与 adapter 相同的可维护 / 可扩展性，而且提供相对更快的训练时间。因此，作者推荐在 NLU 任务中，从业者应该依赖于全微调或多任务训练而不是使用 adapter。

May, 2023

SPAFIT: 分层渐进调适微调预训练大型语言模型

本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法，称为 Stratified Progressive Adaptation Fine-tuning（SPAFIT）。我们在 GLUE 基准测试中进行的实验证明，我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下，优于其他 PEFT 方法。

Apr, 2024

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

适配器模块在文本分类中性能、效率和公平性之间的权衡

当前的自然语言处理（NLP）研究倾向于仅关注一到两个维度，如性能、隐私、公平性或效率，这可能导致次优的结论，并常常忽视实现可信赖的 NLP 的更广泛目标。适配器模块的工作主要关注提高性能和效率，并未对公平性等其他方面的意外后果进行调查。我们在三个文本分类数据集上进行实验，通过（1）微调所有参数或（2）使用适配器模块来研究性能和效率。关于性能和效率，我们确认了先前的发现，即适配器增强模型的准确性大致与完全微调的模型相当，而训练时间大大缩短。关于公平性，我们发现适配器模块在敏感群体之间造成了混合的公平性。进一步研究发现，当标准微调模型表现出有限的偏见时，适配器模块通常不会引入额外的偏见。另一方面，当微调模型表现出增加的偏见时，适配器模块对偏见的影响变得不可预知，可能会导致对某些群体的偏见显著放大的风险。我们的发现强调了需要进行个案评估，而非一刀切的判断。

May, 2024

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024

参数高效微调与适配器

该研究介绍了一种新的适应方法，使用 UniPELT 框架作为基础，并添加了 PromptTuning 层，从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移，无需重新训练基础模型参数。通过对三个不同数据集进行评估，研究结果表明，该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当，而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担，还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力，为参数高效微调的未来研究方向提供了有益的提示。

May, 2024

LLM-Adapters：用于大型语言模型参数高效微调的适配器家族

本文提出 LLMs-Adapters 框架，利用少量可调参数对小型 LLMs 进行 fine-tuning，实现对各种任务的支持；在六种数学推理数据集上的实验表明，将 adapter-based PEFT 应用于小型 LLMs（7B）可以取得与强大的 LLMs（175B）相似甚至更优秀的性能，旨在推进 adapter-based PEFT 的研究，为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。

Apr, 2023