AdaMoLE：使用自适应的低秩适应专家对大型语言模型进行微调

May, 2024

AdaMoLE：使用自适应的低秩适应专家对大型语言模型进行微调

AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts

Zefang Liu, Jiahua Luo

TL;DRAdaMoLE 是一种通过自适应混合低秩适应（LoRA）专家的方法，用于对大型语言模型（LLMs）进行精细调节。它通过使用专用阈值网络来动态调整激活阈值，从而对不同任务的变化复杂性进行自适应响应。通过将单个 LoRA 替换为多个 LoRA 专家，并将门控函数与阈值机制集成，AdaMoLE 可以有效地选择和激活最合适的专家。通过在多种常识推理和自然语言处理任务上进行广泛评估，我们发现 AdaMoLE 的性能优于基准性能。这种改进突出了 AdaMoLE 自适应选择 LoRA 专家的优势，提高了模型的有效性而不增加专家数量。实验证实了 AdaMoLE 作为增强 LLMs 的强大方法，并且对于自适应专家选择机制的未来研究提出了有价值的方向，潜在地扩大了优化模型性能在不同语言处理任务中的范围。

Abstract

We introduce adamole, a novel method for fine-tuning large language models (LLMs) through an →

adamole fine-tuning large language models adaptive mixture of low-rank adaptation expert selection mechanisms

发现论文，激发创造

LoRA 专家混合模型

引入了 Mixture of LoRA Experts (MoLE) 方法，利用分层控制和无限制的分支选择，实现了对 LoRA 的优化融合性能和弹性组合能力的提升。通过在自然语言处理（NLP）和视觉与语言（V&L）领域进行广泛的实验评估，证实了 MoLE 的有效性。

Apr, 2024

MixLoRA：基于 LoRA 的专家混合大语言模型微调增强

提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法，名为 MixLoRA，能够在消费级 GPU 上实现多个专家模型的并行微调，减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。

Apr, 2024

用于可上传机器学习的检索增强的混合 LoRA 专家

Retrieval-Augmented Mixture of LoRA Experts (RAMoLE) is a framework that adaptively retrieves and composes multiple LoRAs to improve large language models through Uploadable Machine Learning, consistently outperforming baselines.

Jun, 2024

更高层次需要更多的 LoRA 专家

研究提出了一种新颖的参数高效的 MoE 方法，称为 MoLA，适用于基于 Transformer 的模型，通过为每个模型层分配不同数量的 LoRA 专家，该方法在六个著名的 NLP 和常识 QA 基准上展示了与基线相当或更好的性能，该工作可以作为各种应用的即插即用的参数高效调优方法。

Feb, 2024

LLaVA-MoLE：稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突

在多领域图像 - 文本指导数据上进行指导微调是获取多功能多模态大型语言模型（MLLM）的关键，通过创建一组 MLP 层的 LoRA 专家，通过路由函数将每个令牌路由到最佳专家，以适应来自不同领域的令牌的自适应选择，从而解决了多领域指导数据的数据冲突问题，并在混合数据集上获得了持续的性能提升。

Jan, 2024

MoELoRA: 基于对比学习引导的专家混合模型在大型语言模型的参数高效微调中的应用

利用对比学习以鼓励专家学习不同特征的方式，我们介绍了一种新的参数效率微调方法 MoELoRA，它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。

Feb, 2024

MoRAL: MoE 展进 LoRA 用于 LLMs 的终身学习

提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL，用于有效地进行大型语言模型的终身学习，使用问题 - 答案对作为输入以提高鲁棒性和效率，并通过新的评估基准和指标对其进行了全面评估。

Feb, 2024

X-LoRA：低秩适配器专家的混合，用于蛋白质力学和设计中的大型语言模型的灵活框架

基于 LoRA 适应性技术的深层令牌级方法，应用于大型语言模型，通过隐藏状态动态混合适应层，实现不同能力的组合，适用于各种现有的大型语言模型，主要聚焦于生物材料分析和蛋白质力学设计。

Feb, 2024

混合 LoRA：大型语言模型的高效多任务调优

使用 Mixture-of-LoRAs (MoA) 架构的多任务学习方法，通过培训多个领域特定的 LoRA 模块，采用明确的路由策略和领域标签来防止任务之间的干扰，并最终提高每个个体任务的性能，进而促进领域特定大语言模型（LLMs）的广泛应用。

Mar, 2024

AdaMoE：自适应令牌路由与零专家混合专家语言模型

透過引入 AdaMoE 實現標記自適應路由，該方法可以在不增加顯著開銷的情況下提升模型容量，並且可以減少平均專家負載（FLOPs）並達到更好的性能。

Jun, 2024