FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统

Feb, 2024

FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统

FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning

Xupeng Miao, Gabriele Oliaro, Xinhao Cheng, Mengdi Wu, Colin Unger...

TL;DR我们提出了 FlexLLM，这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统，通过协同服务的方法，利用共享的 GPU 资源来同时运行这两个任务，FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍，并将微调的整个 GPU 内存要求降低了最多 36％，同时保持了低推理延迟并提高了微调吞吐量。

Abstract

parameter-efficient finetuning (PEFT) is a widely used technique to adapt large language models for different tasks. Service providers typically create separate systems for users to perform PEFT model finetuning and inference tasks. This is because existing systems cannot handle worklo

parameter-efficient finetuning flexllm gpu resources co-serving token-level finetuning

发现论文，激发创造

面向更高参数效率的大语言模型微调：一篇立场论文

该研究论文从参数高效微调（PEFT）对大语言模型（LLMs）的迫切需求出发，强调了当前状态和进一步研究该主题的必要性，以及需要解决的重要挑战和开放问题，包括创新 PEFT 架构、不同学习设置的 PEFT、结合模型压缩技术的 PEFT 以及多模态 LLMs 的 PEFT 探索。通过提出该立场论文，我们旨在激发进一步的研究，并促进围绕 LLMs 的更高效和可访问的 PEFT 的讨论。

Nov, 2023

利用大型语言模型进行代码生成的参数高效微调技术探究

通过对大规模语言模型进行参数高效微调技术的研究，本文在自动化代码生成场景下全面研究了这些技术对大规模语言模型的影响，实验结果表明这些技术在减轻计算负担和提高性能方面表现优越，为软件工程场景中的更广泛应用开启了机会。

Aug, 2023

MEFT：通过稀疏适配器实现内存高效微调

通过使用较大的尺寸但内存高效的适配器，结合语言模型中前馈网络的固有激活稀疏性以及中央处理器内存相对于图形处理器更大的容量，我们提出了一种改进的方法来优化在有限资源下大型语言模型的微调性能。通过将较大尺寸的适配器的参数存储和更新在中央处理器上，并采用类似于专家混合 (MoE) 的架构来减少不必要的中央处理器计算和图形处理器之间的通信量，尤其是在 PCI Express (PCIe) 的有限带宽下，我们的方法可以实现与具有更大内存容量的情况下相媲美的微调结果，即使在较为有限的资源下，如只有 24GB 内存单 GPU 设置下，也能达到可接受的训练效率损失。

Jun, 2024

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

LLM-Adapters：用于大型语言模型参数高效微调的适配器家族

本文提出 LLMs-Adapters 框架，利用少量可调参数对小型 LLMs 进行 fine-tuning，实现对各种任务的支持；在六种数学推理数据集上的实验表明，将 adapter-based PEFT 应用于小型 LLMs（7B）可以取得与强大的 LLMs（175B）相似甚至更优秀的性能，旨在推进 adapter-based PEFT 的研究，为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。

Apr, 2023

大规模效率：探究微型语言模型在临床任务中的性能

对不同规模的模型以及临床决策任务的适用性进行研究，揭示大型语言模型的效果与 Parameter Efficient Fine-tuning 方法的关系，发现 LoRA 方法在各项任务和模型规模下都能保持较高的性能，专用模型在速度和训练成本上具有优越性，与大型基础语言模型相比效果更好，同时探讨了领域特定预训练与 PEFT 方法和模型规模之间的相互影响，以及提供最佳效率与性能平衡的因素。

Feb, 2024

代码大语言模型参数高效方法的实证研究及其向 R 的知识转移

通过实证研究 PEFT 方法（LoRA 和 Compacter）在 CodeT5 和 CodeLlama 上的表现，评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移，以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言，其具有广泛的社区，而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用，此外，研究 R 语言为使用 LLMs 于其他语言提供了新机会，我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。

Mar, 2024

专注于神经元：神经元级别的大语言模型有监督微调

大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成，随着模型规模的扩大，它们变得越来越多样化。研究发现，并非所有神经元在不同的数据集上都活跃，这种稀疏性与任务特定能力呈正相关，为模型剪枝和训练效率的进展提供了基础。传统的微调方法涉及 LLMs 的所有参数，计算复杂且可能不必要。相反，参数高效的微调方法旨在减少可训练参数的数量，但它们仍在相对宏观（例如，层级）上操作。我们介绍了神经元级微调 (NeFT)，一种将参数训练的粒度细化到单个神经元，实现更精确、计算更高效的模型更新的新方法。实验结果表明，NeFT 不仅超过了全参数微调和参数高效微调的性能，还为神经元分析提供了深入洞见。

Mar, 2024

CoLLiE: 高效方式中的大型语言模型的协同训练

这篇论文介绍了 CoLLiE，一种高效的库，通过 3D 并行性、参数高效微调方法和优化器，如 Lion、Adan、Sophia、LOMO 和 AdaLomo，促进了大型语言模型的协作训练。CoLLiE 在预训练和微调场景中证明了其卓越的训练效率，并在吞吐量方面进行了综合比较各种优化器和 PEFT 方法。

Dec, 2023