源代码的参数高效微调变压器
适配器和低秩适应(LoRA)是旨在使语言模型训练更加高效的参数节约微调技术。本研究通过调查这些技术在多语言文本分类任务中(流派、框架和说服技巧检测;具有不同输入长度、预测类别数量和分类难度;其中一些任务数据有限)与全面微调相比,对分类性能和计算成本的影响,补充了现有研究。此外,我们对不同训练场景(在原始多语言数据上训练;在英文翻译上训练;以及在部分仅英文数据上)和不同语言进行了彻底分析,为参数节约微调技术的适用性,特别是对复杂的多语言和多标签分类任务提供了有价值的见解。
Aug, 2023
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
在大语言模型时代,提高计算资源的有效利用需求变得非常重要。本文基于 LoRA 精调方法,引入了一种新颖的参数高效训练技术,通过频繁改变可训练参数的一部分,提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少,与当前最先进的参数高效算法相当,而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。
Jun, 2024
本文探讨评估 Transformer 模型微调来进行个性化编码生成,考虑三种方法:(i)自定义微调,(ii)轻量级微调,(iii)前缀微调,比较它们的效果和成本效益。
Aug, 2022
基于 Transformer 模型的代码 - 文本检索问题上,我们提出了一种使用参数高效微调技术的微调框架,并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验,我们证明了该微调框架有潜力通过微调最多 0.4%的参数来提高代码 - 文本检索性能。
May, 2024
本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力,研究发现 LoRA 在低数据情况和跨语言转移中表现出色,当模型增大时,LoRA 和完全微调之间的性能差距减小,同时,继续训练 LoRA 获得了最佳的少样本跨语言转移表现。
Nov, 2023
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021
通过对多个 adapter、任务和语言在有监督和跨语言零 - shot 设置中进行广泛实验,作者发现对于自然语言理解任务,adapter 的参数效率并不会转化为与全微调一样的效率优势。同时,使用多任务训练通过全微调也能达到与 adapter 相同的可维护 / 可扩展性,而且提供相对更快的训练时间。因此,作者推荐在 NLU 任务中,从业者应该依赖于全微调或多任务训练而不是使用 adapter。
May, 2023
通过实证研究 PEFT 方法(LoRA 和 Compacter)在 CodeT5 和 CodeLlama 上的表现,评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移,以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言,其具有广泛的社区,而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用,此外,研究 R 语言为使用 LLMs 于其他语言提供了新机会,我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。
Mar, 2024
本研究提出一种在多语言预训练模型中解决遗忘问题的方法 -- 使用结构适配器仅更新 0.6%的总参数进行微调,取得了代码搜索和汇总任务的最新成果,并在跨语言和低资源情景下实现了良好的性能。
Mar, 2023