LoftQ: 针对大型语言模型的 LoRA 微调感知量化
我们提出了一种量化感知的低秩自适应算法(QA-LoRA),通过使用分组运算符,增加量化的自由度,减少自适应的自由度,将大型语言模型(LLMs)权重量化以减少时间和内存使用,并将 LLM 和辅助权重自然地集成到一个量化模型中,而不损失准确性。我们应用 QA-LoRA 算法于 LLaMA 和 LLaMA2 模型系列,并在不同的微调数据集和下游场景中验证了其有效性。
Sep, 2023
通过引入一种名为 ApiQ 的新型量化框架,本文解决了在大型语言模型中进行内存高效微调时,量化过程对预训练模型的知识损失以及错误传播所造成的问题,从而实现了在各种量化位宽下始终取得卓越的微调结果。
Feb, 2024
L4Q 是一种参数高效的量化感知训练算法,利用 LLMs 中学到的低秩适应性量化步长,实现对高精度模型的同时量化和微调,达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。
Feb, 2024
该论文提出了一种新颖的 IR-QLoRA 技术,通过信息保留实现了对量化 LLMs 的高精度,综合实验证明 IR-QLoRA 能显著提高 LLaMA 和 LLaMA2 系列的准确性,在 2-4 位宽下与现有方法相比,4 位 LLaMA-7B 的 MMLU 提高了 1.4%,时间开销仅增加了 0.31%。
Feb, 2024
我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中,量化部分保持固定,只有低秩部分被更新。我们提出了量化部分的整数线性规划形式,可以在总体存储器预算的情况下动态配置量化参数(例如,位宽,块大小)给每个矩阵。我们进一步探索了数据感知版本的算法,该算法使用 Fisher 信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应 RoBERTa 和 LLaMA-2(7B 和 70B)的实验中,我们的低秩加量化矩阵分解方法(LQ-LoRA)优于 QLoRA 和 GPTQ-LoRA 基准,并且能实现更激进的量化。例如,在 OpenAssistant 基准测试中,LQ-LoRA 能够学习一个 2.5 位的 LLaMA-2 模型,与使用 4 位 QLoRA 微调的模型竞争。在语言建模校准数据集上微调时,LQ-LoRA 还可以用于模型压缩;在这种情况下,我们的 2.75 位 LLaMA-2-70B 模型(考虑了低秩部分的平均位数,并且需要 27GB 的 GPU 内存)与原始模型在全精度上竞争。
Nov, 2023
QLoRA 和 QDyLoRA 是一种用于大型语言模型的有效量化方法,能够在 GPU 内存限制下进行适应性微调,并在寻找适合的低秩参数方面具有竞争力。
Feb, 2024
我们提出了一种内存高效的大型语言模型微调算法 (ModuLoRA),支持在只有一个 48GB 的 GPU 上以 3 位或 4 位精度对具有 65B 参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器 (LoRAs) 结合使用,我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA 在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,我们还超过了流行的摘要任务的最新 ROUGE 分数。我们将 ModuLoRA 与一系列低精度模型一起发布,其中包括第一个 3 位指令跟随型 Alpaca LLMs 系列,作为 LLMTOOLS 的一部分,LLMTOOLS 是一个用户友好的用于在消费级 GPU 上进行量化、运行和微调 LLMs 的库。
Sep, 2023
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
QLoRA 是一种高效的微调方法,它通过 4 位量化的预训练语言模型将梯度反向传递到低秩适配器中,以降低内存使用,同时保持全 16 位微调任务性能。它能够优化模型性能,并且在更小的内存占用下使用小的高质量数据集进行微调,甚至达到先前最先进性能等级的状态。
May, 2023
本文提出了一种新的方法,使用极度节约内存的微调方法和 Low-Rank Adaptation (LoRA) 对异常进行纠正,从而显著减少了缺乏内存的大型模型的微调 VRAM 需求,并使精度达到了 INT2.1。同时,我们的方法适用于其他量化标准,如 INT3,INT4 和 INT8,为模型量化领域带来了重大的里程碑。
Jun, 2023