AdaMix: 参数高效模型调整的自适应混合
提出 AdaMix,在保持大部分 PLM 权重不变的情况下,通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能,仅调整 0.1-0.2%的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。
Oct, 2022
引入 X-PEFT,一种新的参数高效微调方法,通过微调极小的紧凑张量,作为二进制掩码来自适应地选择给定适配器,从而解决适配器数量线性增加的问题,相较于传统的适配器微调,在每个配置文件的内存需求减少了 10000 倍,而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。
Jan, 2024
参数效率微调(PEFT)是应对大型语言模型的适应和服务挑战的一种有前景的方法,本研究中描述了一种非侵入式的 PEFT 技术 AdaLink,并在各种任务中与最先进的侵入式 PEFT(LoRA)和全模型微调(FT)相比表现出有竞争力的性能。
Oct, 2023
本文提出 LLMs-Adapters 框架,利用少量可调参数对小型 LLMs 进行 fine-tuning,实现对各种任务的支持;在六种数学推理数据集上的实验表明,将 adapter-based PEFT 应用于小型 LLMs(7B)可以取得与强大的 LLMs(175B)相似甚至更优秀的性能,旨在推进 adapter-based PEFT 的研究,为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。
Apr, 2023
针对多种多语言下游任务中,将预训练的大语言模型(LLM)进行调整以适应不同语言的计算成本过高的问题,本研究提出了一种参数高效的微调方法,即 Featurized Low-rank Mixtures(FLix),通过为每个数据集分配独立的低秩权重更新参数,实现了对多样的数据集混合的适应并对未见数据集表现更好。实验证明,FLix 在使用不同训练数据混合的有监督学习和零样本设置中,对多种任务都取得了显著的改进。
Feb, 2024
本研究提出了一种方法,在参数高效微调(PEFT)环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构,将编码不同语言结构的并行适配器模块进行组合,并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量,在修剪专家之前,我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验,结果表明我们的方法在具有相当数量的参数的情况下,能够胜过最先进的 PEFT 方法。此外,我们还提供了额外分析,以检查和提供未来研究的见解。
Oct, 2023
研究调查预训练语言模型在低资源文本分类任务中适配器模块和主要微调之间的相互作用,通过减少标注复杂性的主动学习算法显示出可行性,强调了主动学习与参数高效微调和一致性微调的相互潜力,为高效有效微调的提高打下了基础。
May, 2023
使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调,比较它们在参数效率方面的表现,结果显示 adapter 是效果最好的 PEFT 方法。
Jun, 2024
本文通过全面实证研究发现,适当的 Tuning 数量的 Parameter-efficient fine-tuning methods,特别是使用了嵌入小型前馈神经网络 (adapters) 的模型,可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平,尤其当参数预算为 10%的情况下。但是,当调优参数数量减少时,PEFT 的性能会随之减弱,这一降低幅度取决于语言对的关系,而对于小型数据集,PEFT 的性能优于同样的预训练模型的全模型调整。
May, 2022