参数高效微调中 Transformer 模块的迁移性实证研究

EMNLPFeb, 2023

参数高效微调中 Transformer 模块的迁移性实证研究

An Empirical Study on the Transferability of Transformer Modules in Parameter-Efficient Fine-Tuning

Mohammad Akbar-Tajari, Sara Rajaee, Mohammad Taher Pilehvar

TL;DR本文旨在通过 fine-tuning 各种 transform 的模块，找寻最优子网络并探究不同 transformer 模块在将知识从预训练模型传输到下游任务方面的能力，结果显示其中的 LayerNorms 具有最佳的限制可训练参数数量和知识传输能力，并且这种效果可能是由于相对于其他模块，在预训练 BERT 中，它们具有更高的权重大小。

Abstract

parameter-efficient fine-tuning approaches have recently garnered a lot of attention. Having considerably lower number of trainable weights, these methods can bring about scalability and computational effectiveness. In this paper, we look for →

parameter-efficient fine-tuning optimal sub-networks transformer modules knowledge transfer layernorms

发现论文，激发创造

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

评估参数高效微调方法训练的参数矩阵的可移植性

通过使用参数高效微调技术训练的模块，研究探讨了任务特定知识在不同模型之间的可移植性，发现该方法在情感分析等任务上远远优于从头开始训练或从相同分布中采样参数训练的模块。

Jan, 2024

源代码的参数高效微调变压器

本文介绍了针对代码的预训练模型参数高效微调的适配器和 LoRA 两种方法，经过四项代码处理任务测试，发现这些高效微调方法在代码理解任务中可以实现可比或更高的性能，但在代码生成任务中性能不如标准的全微调。这些结果强调了在其他领域测试高效微调方法的重要性，并促进了对源代码高效微调的未来研究。

Dec, 2022

LayerNorm: 参数高效微调中的关键组件

改进和优化 BERT 预训练模型以实现参数高效微调，通过分析不同组件，发现经过微调后，输出层规范化（LayerNorm）发生的变化最为显著。通过仅微调 LayerNorm，可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能，并用 Fisher 信息确定了 LayerNorm 的关键子集，在 GLUE 基准测试中解决了许多 NLP 任务。

Mar, 2024

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

大型预训练语言模型的高效微调方法的实证分析

为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集（MRPC、COLA、STS-B）上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头，在不同数量的训练数据和时间限制下，与全模型微调相当。即使只使用 30% 的数据，它也表现出明显的稳定性，在中等数据水平上优于全模型微调。适配器模块的性能变异较大，在默认模型上的收益一致性较差。研究结果表明，BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角，强调了其鲁棒性，并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南，同时展示了适配器模块等稳定技术面临的挑战。

Jan, 2024

可训练 Batch Norm 参数对迁移学习的表现影响

本文探究了深度学习在医学图像上的转移学习技术，着重研究了 Batch Normalisation 层的可训练权重在 fine-tune 过程中的表现并发现只对其可训练权重 fine-tune 可以提高模型性能和收敛速度。

Feb, 2021

高效扩展：基于预训练和微调的 Transformer 技术洞见

本文提出了来自于预训练和微调 Transformer 的缩放见解，并展示了改进的缩放协议，使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量，同时参数数量减少了 50％，训练速度比广泛采用的 T5-base 模型快了 40％。

Sep, 2021

模块性是否可转移？通过知识蒸馏的案例研究

模块化深度学习在自然语言处理应用中展现了潜力，而参数高效微调（PEFT）模块化已经表明其适用于各种情况，从领域自适应到多语言设置。本文通过知识蒸馏的视角填补了现有模块化方法的一个重要空白，并提出了一种非常简单的方法，在同一家族的预训练语言模型（PLM）之间传递预训练、任务特定的 PEFT 模块。此外，我们提出了一种允许在不改变推理复杂度的情况下在不兼容的 PLM 之间传递模块的方法。多语言和 PEFT 方法上对命名实体识别、自然语言推理和剽窃识别任务的实验展示了可传递的模块化的初步潜力。

Mar, 2024