专家坚持自己的领域：面向稀疏架构的专家专用微调技术

Jul, 2024

专家坚持自己的领域：面向稀疏架构的专家专用微调技术

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li...

TL;DR参数高效的微调（PEFT）是为了定制具有受限资源的大型语言模型（LLMs）而关键。本文研究了 Mixture-of-Experts（MoE）架构的 LLMs 上的 PEFT 方法，主要工作内容包括：（1）研究定制任务中激活的专家的集中程度，发现特定任务的路由分布往往高度集中，而激活的专家分布在不同任务之间差异显著。（2）提出了专家定制微调（ESFT），该方法在冻结其他专家和模块的同时调整与下游任务最相关的专家；实验结果表明，我们的方法不仅提高了调整效率，还甚至超过了全参数微调的性能。（3）进一步分析 MoE 架构对专家定制微调的影响，发现具有更细粒度专家的 MoE 模型能更好地选择与下游任务最相关的专家组合，从而提高训练效率和效果。

Abstract

parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEF

parameter-efficient fine-tuning large language models mixture-of-experts architecture expert-specialized fine-tuning training efficiency

发现论文，激发创造

MEFT：通过稀疏适配器实现内存高效微调

通过使用较大的尺寸但内存高效的适配器，结合语言模型中前馈网络的固有激活稀疏性以及中央处理器内存相对于图形处理器更大的容量，我们提出了一种改进的方法来优化在有限资源下大型语言模型的微调性能。通过将较大尺寸的适配器的参数存储和更新在中央处理器上，并采用类似于专家混合 (MoE) 的架构来减少不必要的中央处理器计算和图形处理器之间的通信量，尤其是在 PCI Express (PCIe) 的有限带宽下，我们的方法可以实现与具有更大内存容量的情况下相媲美的微调结果，即使在较为有限的资源下，如只有 24GB 内存单 GPU 设置下，也能达到可接受的训练效率损失。

Jun, 2024

改进和解释预训练语言模型的语言专家混合适配器

本研究提出了一种方法，在参数高效微调（PEFT）环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构，将编码不同语言结构的并行适配器模块进行组合，并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量，在修剪专家之前，我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验，结果表明我们的方法在具有相当数量的参数的情况下，能够胜过最先进的 PEFT 方法。此外，我们还提供了额外分析，以检查和提供未来研究的见解。

Oct, 2023

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

基于实证分析的 PEFT 技术在 LLM 中的优势和劣势

本文主要介绍了大型语言模型的 fine-tuning 方法 ——parameter-efficient fine-tuning（PEFT），并通过对 FLAN-T5 模型的综合测试和分析，提出了选择 fine-tuning 技术的最佳方法，重点考虑任务类型和数据可用性，同时指出了 PEFT 方法在数据过少的情况下的收敛速度慢的问题，提出了更好的 model optimization 方法。

Apr, 2023

PEMT：多任务相关导引的专家组合混合使得参数高效迁移学习

我们提出了一种基于多任务迁移学习的新型参数高效微调框架 (PEMT)，通过在源任务上训练适配器的加权组合来捕捉可转移的知识，同时利用任务描述提示向量来衡量目标任务与每个源任务之间的相关性，以充分利用任务特定的知识并提高稀疏性。实验证明，我们的方法在各种任务上相较于完全微调、PEFT 和知识转移方法都取得了稳定的改进，突出了其能够充分利用多任务之间的知识和相关特征的有效性。

Feb, 2024

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

百万专家混合模型

基于稀疏检索的层设计 PEER（parameter efficient expert retrieval）充分利用来自庞大专家池（超过一百万个）的产品键技术以实现稀疏检索，超过密集前馈层和粗粒度 MoEs，从而在性能 - 计算权衡方面提供更好的性能。通过有效利用大量的专家，PEER 释放了进一步扩展 Transformer 模型的潜力，同时保持计算效率。

Jul, 2024

MoPEFT: 用于分割任何模型的 PEFT 混合模型

提出了一种新的框架，Mixture-of-PEFTs methods (MoPEFT)，它通过将三种不同的 PEFT 技术作为子模块，动态学习激活最适合给定数据任务设置的方法来对 Segment Anything Model 进行微调。在 MESS 基准测试中，我们对该方法进行了测试，并显示出 MoPEFT 在性能优化方面始终优于其他微调方法。

May, 2024

AutoPEFT: 参数高效微调自动配置搜索

本文介绍了一个名为 AutoPEFT 的框架，通过高维贝叶斯优化自动配置多个 PEFT 模块，控制并最大化性能和参数效率之间的平衡，实现对于性能和参数节约的优化，表现要优于现有的 PEFT 方法，高于标准 GLUE 基准上的平均值，并且在单个任务上进行配置搜索，AutoPEFT 即使优于全模型微调。

Jan, 2023

低资源语言翻译的参数高效微调解锁

参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要，通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分，我们进行了具备不同资源和域的全面实证实验，评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明，6 种参数高效微调架构在域内和域外测试中均超过了基准线，其中 Houlsby+Inversion 适配器表现最佳，验证了参数高效微调方法的有效性。

Apr, 2024