多任务多语言模型自适应与特征化低秩混合

Feb, 2024

多任务多语言模型自适应与特征化低秩混合

Multitask Multilingual Model Adaptation with Featurized Low-Rank Mixtures

Chu-Cheng Lin, Xinyi Wang, Jonathan H. Clark, Han Lu, Yun Zhu...

TL;DR针对多种多语言下游任务中，将预训练的大语言模型（LLM）进行调整以适应不同语言的计算成本过高的问题，本研究提出了一种参数高效的微调方法，即 Featurized Low-rank Mixtures（FLix），通过为每个数据集分配独立的低秩权重更新参数，实现了对多样的数据集混合的适应并对未见数据集表现更好。实验证明，FLix 在使用不同训练数据混合的有监督学习和零样本设置中，对多种任务都取得了显著的改进。

Abstract

Adapting pretrained large language models (LLMs) to various downstream tasks in tens or hundreds of human languages is computationally expensive. parameter-efficient fine-tuning (PEFT) significantly reduces the a

large language models parameter-efficient fine-tuning featurized low-rank mixtures multitask multilingual tuning dataset mixtures

发现论文，激发创造

用于参数高效微调的 Mini-Ensemble 低秩适配器

MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器，用于针对预训练大型语言模型进行性能优化的方法。实验证明，在自然语言理解和指令跟随任务上，相较于低秩适配器 LoRA，MELoRA 在拥有 8 倍较少可训练参数时表现更好，而在指令跟随任务上拥有 36 倍较少可训练参数时也表现更好，证明了 MELoRA 的有效性。

Feb, 2024

Context-PEFT: 高效多模态、多任务微调

提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法（PEFT）框架，它通过 LoRA、BitFit 和 IA3 等技术，在几乎不需要可训练参数和 GPU 内存的情况下，展示了与预训练模型完全微调相当的性能，然而，在多模态微调中，经常需要进行架构修改或完全微调。为了解决这个问题，我们提出了 Context-PEFT，它根据令牌的领域学习不同的适配器参数组，这种方法使得可以实现类似 LoRA 的权重注入，而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估，在类似的数据限制下，优于完全微调，并同时提供了更高的参数效率和计算经济性的解决方案。

Dec, 2023

MoELoRA: 基于对比学习引导的专家混合模型在大型语言模型的参数高效微调中的应用

利用对比学习以鼓励专家学习不同特征的方式，我们介绍了一种新的参数效率微调方法 MoELoRA，它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。

Feb, 2024

AdaMix: 适应混合策略用于参数高效调整的模型

提出 AdaMix，在保持大部分 PLM 权重不变的情况下，通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能，仅调整 0.1-0.2％的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。

Oct, 2022

AdaMix: 参数高效模型调整的自适应混合

本文提出 AdaMix 作为一种通用的参数高效微调方法，通过调整每个 Transformer 层中引入的自适应模块的混合来提高下游自然语言理解和生成任务的性能。这种方法只对 0.1-0.2％的 PLM 参数进行微调，可以超越目前的各种参数高效微调和完整模型微调方法。

May, 2022

低资源语言翻译的参数高效微调解锁

参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要，通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分，我们进行了具备不同资源和域的全面实证实验，评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明，6 种参数高效微调架构在域内和域外测试中均超过了基准线，其中 Houlsby+Inversion 适配器表现最佳，验证了参数高效微调方法的有效性。

Apr, 2024

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

大规模效率：探究微型语言模型在临床任务中的性能

对不同规模的模型以及临床决策任务的适用性进行研究，揭示大型语言模型的效果与 Parameter Efficient Fine-tuning 方法的关系，发现 LoRA 方法在各项任务和模型规模下都能保持较高的性能，专用模型在速度和训练成本上具有优越性，与大型基础语言模型相比效果更好，同时探讨了领域特定预训练与 PEFT 方法和模型规模之间的相互影响，以及提供最佳效率与性能平衡的因素。

Feb, 2024

大语言模型的贝叶斯低秩适应

使用 Laplace-LoRA 方法，对参数高效微调的大型语言模型进行贝叶斯方法，提高模型的校准性。

Aug, 2023