参数高效微调中 Transformer 模块的迁移性实证研究
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021
通过使用参数高效微调技术训练的模块,研究探讨了任务特定知识在不同模型之间的可移植性,发现该方法在情感分析等任务上远远优于从头开始训练或从相同分布中采样参数训练的模块。
Jan, 2024
本文介绍了针对代码的预训练模型参数高效微调的适配器和 LoRA 两种方法,经过四项代码处理任务测试,发现这些高效微调方法在代码理解任务中可以实现可比或更高的性能,但在代码生成任务中性能不如标准的全微调。这些结果强调了在其他领域测试高效微调方法的重要性,并促进了对源代码高效微调的未来研究。
Dec, 2022
改进和优化 BERT 预训练模型以实现参数高效微调,通过分析不同组件,发现经过微调后,输出层规范化(LayerNorm)发生的变化最为显著。通过仅微调 LayerNorm,可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能,并用 Fisher 信息确定了 LayerNorm 的关键子集,在 GLUE 基准测试中解决了许多 NLP 任务。
Mar, 2024
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020
为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集(MRPC、COLA、STS-B)上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头,在不同数量的训练数据和时间限制下,与全模型微调相当。即使只使用 30% 的数据,它也表现出明显的稳定性,在中等数据水平上优于全模型微调。适配器模块的性能变异较大,在默认模型上的收益一致性较差。研究结果表明,BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角,强调了其鲁棒性,并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南,同时展示了适配器模块等稳定技术面临的挑战。
Jan, 2024
本文探究了深度学习在医学图像上的转移学习技术,着重研究了 Batch Normalisation 层的可训练权重在 fine-tune 过程中的表现并发现只对其可训练权重 fine-tune 可以提高模型性能和收敛速度。
Feb, 2021
本文提出了来自于预训练和微调 Transformer 的缩放见解,并展示了改进的缩放协议,使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量,同时参数数量减少了 50%,训练速度比广泛采用的 T5-base 模型快了 40%。
Sep, 2021
模块化深度学习在自然语言处理应用中展现了潜力,而参数高效微调(PEFT)模块化已经表明其适用于各种情况,从领域自适应到多语言设置。本文通过知识蒸馏的视角填补了现有模块化方法的一个重要空白,并提出了一种非常简单的方法,在同一家族的预训练语言模型(PLM)之间传递预训练、任务特定的 PEFT 模块。此外,我们提出了一种允许在不改变推理复杂度的情况下在不兼容的 PLM 之间传递模块的方法。多语言和 PEFT 方法上对命名实体识别、自然语言推理和剽窃识别任务的实验展示了可传递的模块化的初步潜力。
Mar, 2024