数据高效调优的多头适配器路由

Nov, 2022

Multi-Head Adapter Routing for Data-Efficient Fine-Tuning

Lucas Caccia, Edoardo Ponti, Lucas Liu, Matheus Pereira, Nicolas Le Roux...

TL;DR本文提出了 Poly-mu 和 Poly-S 两种新的方法，对比了它们与 Polytropon 方法在多个任务学习中的表现，并发现 Poly-S 方法可以在保持参数少量增加的同时，在三个测试数据集上获得了高达 5.3 个点的平均收益。

Abstract

parameter-efficient fine-tuning (PEFT) methods can adapt large language models to downstream tasks by training a small amount of newly added parameters. In multi-task settings, peft adapters typically train on ea

parameter-efficient fine-tuning multi-task learning peft adapters task-adapter allocation weighted averaging

发现论文，激发创造

基于原型的超适配器用于高效的多任务调优

基于 Protoype 的 HyperAdapter（PHA）是一个建立在 adapter-tuning 和超网络的新框架，它采用实例密集检索器和原型超网络以更有效地生成条件模块，从而在多任务学习和少样本迁移学习中与现有的参数有效微调（PEFT）方法相比具有可比较的性能改进，并在数据规模较小时，与其他强基准相比，取得了显著的优势。基于对各种数据集的大量实证实验，我们证明 PHA 在可训练参数、模型精度和样本效率之间取得了更好的平衡。

Oct, 2023

参数高效迁移学习在机器翻译中的适用条件

本文通过全面实证研究发现，适当的 Tuning 数量的 Parameter-efficient fine-tuning methods，特别是使用了嵌入小型前馈神经网络 (adapters) 的模型，可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平，尤其当参数预算为 10％的情况下。但是，当调优参数数量减少时，PEFT 的性能会随之减弱，这一降低幅度取决于语言对的关系，而对于小型数据集，PEFT 的性能优于同样的预训练模型的全模型调整。

May, 2022

参数高效微调与适配器

该研究介绍了一种新的适应方法，使用 UniPELT 框架作为基础，并添加了 PromptTuning 层，从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移，无需重新训练基础模型参数。通过对三个不同数据集进行评估，研究结果表明，该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当，而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担，还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力，为参数高效微调的未来研究方向提供了有益的提示。

May, 2024

适配器效率的全面分析

通过对多个 adapter、任务和语言在有监督和跨语言零 - shot 设置中进行广泛实验，作者发现对于自然语言理解任务，adapter 的参数效率并不会转化为与全微调一样的效率优势。同时，使用多任务训练通过全微调也能达到与 adapter 相同的可维护 / 可扩展性，而且提供相对更快的训练时间。因此，作者推荐在 NLU 任务中，从业者应该依赖于全微调或多任务训练而不是使用 adapter。

May, 2023

X-PEFT：面向极端多个配置的极其参数高效微调

引入 X-PEFT，一种新的参数高效微调方法，通过微调极小的紧凑张量，作为二进制掩码来自适应地选择给定适配器，从而解决适配器数量线性增加的问题，相较于传统的适配器微调，在每个配置文件的内存需求减少了 10000 倍，而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。

Jan, 2024

G-Adapter：面向图变换器网络的结构感知参数高效迁移学习

本文旨在探索将 Parameter-Efficient Fine-Tuning (PEFT) 技术应用于基于图的任务，提出了一种名为 G-Adapter 的新型结构感知 PEFT 方法，并使用 Bregman Proximal Point 方法进一步缓解特征分布变化问题，研究结果表明，G-Adapter 相对于现有的 PEFT 方法，在 9 个基于图的基准数据集上获得了最先进的性能，并且相比于传统的方法提供了巨大的内存节省。

May, 2023

LLM-Adapters：用于大型语言模型参数高效微调的适配器家族

本文提出 LLMs-Adapters 框架，利用少量可调参数对小型 LLMs 进行 fine-tuning，实现对各种任务的支持；在六种数学推理数据集上的实验表明，将 adapter-based PEFT 应用于小型 LLMs（7B）可以取得与强大的 LLMs（175B）相似甚至更优秀的性能，旨在推进 adapter-based PEFT 的研究，为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。

Apr, 2023

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

AdaMix: 适应混合策略用于参数高效调整的模型

提出 AdaMix，在保持大部分 PLM 权重不变的情况下，通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能，仅调整 0.1-0.2％的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。

Oct, 2022

AdaMix: 参数高效模型调整的自适应混合

本文提出 AdaMix 作为一种通用的参数高效微调方法，通过调整每个 Transformer 层中引入的自适应模块的混合来提高下游自然语言理解和生成任务的性能。这种方法只对 0.1-0.2％的 PLM 参数进行微调，可以超越目前的各种参数高效微调和完整模型微调方法。

May, 2022