QDyLoRA：用于高效大型语言模型调优的量化动态低秩自适应

Feb, 2024

QDyLoRA：用于高效大型语言模型调优的量化动态低秩自适应

QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning

Hossein Rajabzadeh, Mojtaba Valipour, Tianshu Zhu, Marzieh Tahaei, Hyock Ju Kwon...

TL;DRQLoRA和QDyLoRA是一种用于大型语言模型的有效量化方法，能够在GPU内存限制下进行适应性微调，并在寻找适合的低秩参数方面具有竞争力。

Abstract

finetuning large language models requires huge GPU memory, restricting the choice to acquire Larger models. While the quantized version of

发现论文，激发创造

QLoRA: 基于量化的LLMs高效微调

QLoRA是一种高效的微调方法，它通过4位量化的预训练语言模型将梯度反向传递到低秩适配器中，以降低内存使用，同时保持全16位微调任务性能。它能够优化模型性能，并且在更小的内存占用下使用小的高质量数据集进行微调，甚至达到先前最先进性能等级的状态。

May, 2023

INT2.1: 通过低秩适应实现误差校正的可微量化大语言模型

本文提出了一种新的方法，使用极度节约内存的微调方法和Low-Rank Adaptation (LoRA) 对异常进行纠正，从而显著减少了缺乏内存的大型模型的微调VRAM需求，并使精度达到了INT2.1。同时，我们的方法适用于其他量化标准，如INT3，INT4和INT8，为模型量化领域带来了重大的里程碑。

Jun, 2023

QA-LoRA：大型语言模型的量化感知低秩适应

我们提出了一种量化感知的低秩自适应算法（QA-LoRA），通过使用分组运算符，增加量化的自由度，减少自适应的自由度，将大型语言模型（LLMs）权重量化以减少时间和内存使用，并将LLM和辅助权重自然地集成到一个量化模型中，而不损失准确性。我们应用QA-LoRA算法于LLaMA和LLaMA2模型系列，并在不同的微调数据集和下游场景中验证了其有效性。

Sep, 2023

ModuLoRA: 将3位LLMs在消费级GPU上进行微调与模块量化器集成

我们提出了一种内存高效的大型语言模型微调算法(ModuLoRA)，支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用，我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中，ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能，并且在使用比现有方法更少的内存的同时，我们还超过了流行的摘要任务的最新ROUGE分数。我们将ModuLoRA与一系列低精度模型一起发布，其中包括第一个3位指令跟随型Alpaca LLMs系列，作为LLMTOOLS的一部分，LLMTOOLS是一个用户友好的用于在消费级GPU上进行量化、运行和微调LLMs的库。

Sep, 2023

QFT：量子化的低资源LLM全参数调整

提出了一种名为QFT的新型量化全参数调优框架，可以实现内存高效调优而不损害性能。该框架采用高效的Lion优化器和整数值量化的模型状态存储方法，并提供了梯度流和参数更新方案。结果表明，QFT将模型状态内存减少到标准解决方案的21%，同时达到可比较的性能，例如，调优LLaMA-7B模型仅需30GB内存，一张A6000 GPU即可满足。

Oct, 2023

LQ-LoRA: 用于语言模型微调的低秩加量化矩阵分解

我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中，量化部分保持固定，只有低秩部分被更新。我们提出了量化部分的整数线性规划形式，可以在总体存储器预算的情况下动态配置量化参数（例如，位宽，块大小）给每个矩阵。我们进一步探索了数据感知版本的算法，该算法使用Fisher信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应RoBERTa和LLaMA-2（7B和70B）的实验中，我们的低秩加量化矩阵分解方法（LQ-LoRA）优于QLoRA和GPTQ-LoRA基准，并且能实现更激进的量化。例如，在OpenAssistant基准测试中，LQ-LoRA能够学习一个2.5位的LLaMA-2模型，与使用4位QLoRA微调的模型竞争。在语言建模校准数据集上微调时，LQ-LoRA还可以用于模型压缩；在这种情况下，我们的2.75位LLaMA-2-70B模型（考虑了低秩部分的平均位数，并且需要27GB的GPU内存）与原始模型在全精度上竞争。

Nov, 2023

ASPEN：使用单个GPU实现高吞吐量的大型语言模型LoRA微调

ASPEN是一个高吞吐量的fine-tuning框架，通过LoRA方法在单个GPU上高效地训练多个任务，使用共享的预训练模型和自适应调度，可以显著节省GPU内存并提高训练吞吐量，同时减少工作轮转时间和训练延迟。

Dec, 2023

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点；此外，他们开发了LoRAX多模型推理服务器，支持多个LoRA fine-tuned模型在单个GPU上运行，以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。

Apr, 2024

LoQT: 低秩适配模块用于量化训练

LoQT是一种用于高效训练量化模型的方法，它使用基于梯度的张量分解来初始化可训练的低秩权重矩阵，并周期性地合并到量化全秩权重矩阵中。我们发现LoQT使得在消费级24GB GPU上能够高效地训练高达7B参数的模型，并且还展示了在相同硬件上使用逐层梯度更新训练13B参数模型的可行性。

May, 2024

LLM的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为LR-QAT的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种PTQ技术无缝结合，有效提升模型性能并在内存使用上达到与全模型QAT相当的水平。

Jun, 2024