改进和解释预训练语言模型的语言专家混合适配器

EMNLPOct, 2023

改进和解释预训练语言模型的语言专家混合适配器

Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting Pre-trained Language Models

Raymond Li, Gabriel Murray, Giuseppe Carenini

TL;DR本研究提出了一种方法，在参数高效微调（PEFT）环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构，将编码不同语言结构的并行适配器模块进行组合，并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量，在修剪专家之前，我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验，结果表明我们的方法在具有相当数量的参数的情况下，能够胜过最先进的 PEFT 方法。此外，我们还提供了额外分析，以检查和提供未来研究的见解。

Abstract

In this work, we propose a method that combines two popular research areas by injecting linguistic structures into pre-trained language models in the →

linguistic structures pre-trained language models parameter-efficient fine-tuning adapter modules gumbel-softmax gates

发现论文，激发创造

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

AdaMix: 适应混合策略用于参数高效调整的模型

提出 AdaMix，在保持大部分 PLM 权重不变的情况下，通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能，仅调整 0.1-0.2％的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。

Oct, 2022

AdaMix: 参数高效模型调整的自适应混合

本文提出 AdaMix 作为一种通用的参数高效微调方法，通过调整每个 Transformer 层中引入的自适应模块的混合来提高下游自然语言理解和生成任务的性能。这种方法只对 0.1-0.2％的 PLM 参数进行微调，可以超越目前的各种参数高效微调和完整模型微调方法。

May, 2022

LLM-Adapters：用于大型语言模型参数高效微调的适配器家族

本文提出 LLMs-Adapters 框架，利用少量可调参数对小型 LLMs 进行 fine-tuning，实现对各种任务的支持；在六种数学推理数据集上的实验表明，将 adapter-based PEFT 应用于小型 LLMs（7B）可以取得与强大的 LLMs（175B）相似甚至更优秀的性能，旨在推进 adapter-based PEFT 的研究，为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。

Apr, 2023

低资源语言翻译的参数高效微调解锁

参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要，通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分，我们进行了具备不同资源和域的全面实证实验，评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明，6 种参数高效微调架构在域内和域外测试中均超过了基准线，其中 Houlsby+Inversion 适配器表现最佳，验证了参数高效微调方法的有效性。

Apr, 2024

PEMT：多任务相关导引的专家组合混合使得参数高效迁移学习

我们提出了一种基于多任务迁移学习的新型参数高效微调框架 (PEMT)，通过在源任务上训练适配器的加权组合来捕捉可转移的知识，同时利用任务描述提示向量来衡量目标任务与每个源任务之间的相关性，以充分利用任务特定的知识并提高稀疏性。实验证明，我们的方法在各种任务上相较于完全微调、PEFT 和知识转移方法都取得了稳定的改进，突出了其能够充分利用多任务之间的知识和相关特征的有效性。

Feb, 2024

X-PEFT：面向极端多个配置的极其参数高效微调

引入 X-PEFT，一种新的参数高效微调方法，通过微调极小的紧凑张量，作为二进制掩码来自适应地选择给定适配器，从而解决适配器数量线性增加的问题，相较于传统的适配器微调，在每个配置文件的内存需求减少了 10000 倍，而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。

Jan, 2024

参数高效迁移学习在机器翻译中的适用条件

本文通过全面实证研究发现，适当的 Tuning 数量的 Parameter-efficient fine-tuning methods，特别是使用了嵌入小型前馈神经网络 (adapters) 的模型，可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平，尤其当参数预算为 10％的情况下。但是，当调优参数数量减少时，PEFT 的性能会随之减弱，这一降低幅度取决于语言对的关系，而对于小型数据集，PEFT 的性能优于同样的预训练模型的全模型调整。

May, 2022

Context-PEFT: 高效多模态、多任务微调

提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法（PEFT）框架，它通过 LoRA、BitFit 和 IA3 等技术，在几乎不需要可训练参数和 GPU 内存的情况下，展示了与预训练模型完全微调相当的性能，然而，在多模态微调中，经常需要进行架构修改或完全微调。为了解决这个问题，我们提出了 Context-PEFT，它根据令牌的领域学习不同的适配器参数组，这种方法使得可以实现类似 LoRA 的权重注入，而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估，在类似的数据限制下，优于完全微调，并同时提供了更高的参数效率和计算经济性的解决方案。

Dec, 2023

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023