ApiQ: 2 位量化大型语言模型的精调
我们提出了 LoftQ,这是一个新的量化框架,旨在同时量化 LLM 并为 LoRA fine-tuning 找到适当的低秩初始化,以改善量化和全精度模型之间的差异,并显著提高下游任务的泛化性能。
Oct, 2023
L4Q 是一种参数高效的量化感知训练算法,利用 LLMs 中学到的低秩适应性量化步长,实现对高精度模型的同时量化和微调,达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。
Feb, 2024
QLoRA 是一种高效的微调方法,它通过 4 位量化的预训练语言模型将梯度反向传递到低秩适配器中,以降低内存使用,同时保持全 16 位微调任务性能。它能够优化模型性能,并且在更小的内存占用下使用小的高质量数据集进行微调,甚至达到先前最先进性能等级的状态。
May, 2023
我们提出了一种内存高效的大型语言模型微调算法 (ModuLoRA),支持在只有一个 48GB 的 GPU 上以 3 位或 4 位精度对具有 65B 参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器 (LoRAs) 结合使用,我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA 在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,我们还超过了流行的摘要任务的最新 ROUGE 分数。我们将 ModuLoRA 与一系列低精度模型一起发布,其中包括第一个 3 位指令跟随型 Alpaca LLMs 系列,作为 LLMTOOLS 的一部分,LLMTOOLS 是一个用户友好的用于在消费级 GPU 上进行量化、运行和微调 LLMs 的库。
Sep, 2023
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
我们提出了一种量化感知的低秩自适应算法(QA-LoRA),通过使用分组运算符,增加量化的自由度,减少自适应的自由度,将大型语言模型(LLMs)权重量化以减少时间和内存使用,并将 LLM 和辅助权重自然地集成到一个量化模型中,而不损失准确性。我们应用 QA-LoRA 算法于 LLaMA 和 LLaMA2 模型系列,并在不同的微调数据集和下游场景中验证了其有效性。
Sep, 2023
我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中,量化部分保持固定,只有低秩部分被更新。我们提出了量化部分的整数线性规划形式,可以在总体存储器预算的情况下动态配置量化参数(例如,位宽,块大小)给每个矩阵。我们进一步探索了数据感知版本的算法,该算法使用 Fisher 信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应 RoBERTa 和 LLaMA-2(7B 和 70B)的实验中,我们的低秩加量化矩阵分解方法(LQ-LoRA)优于 QLoRA 和 GPTQ-LoRA 基准,并且能实现更激进的量化。例如,在 OpenAssistant 基准测试中,LQ-LoRA 能够学习一个 2.5 位的 LLaMA-2 模型,与使用 4 位 QLoRA 微调的模型竞争。在语言建模校准数据集上微调时,LQ-LoRA 还可以用于模型压缩;在这种情况下,我们的 2.75 位 LLaMA-2-70B 模型(考虑了低秩部分的平均位数,并且需要 27GB 的 GPU 内存)与原始模型在全精度上竞争。
Nov, 2023
提出了一种名为 QFT 的新型量化全参数调优框架,可以实现内存高效调优而不损害性能。该框架采用高效的 Lion 优化器和整数值量化的模型状态存储方法,并提供了梯度流和参数更新方案。结果表明,QFT 将模型状态内存减少到标准解决方案的 21%,同时达到可比较的性能,例如,调优 LLaMA-7B 模型仅需 30GB 内存,一张 A6000 GPU 即可满足。
Oct, 2023
本文提出了一种新的方法,使用极度节约内存的微调方法和 Low-Rank Adaptation (LoRA) 对异常进行纠正,从而显著减少了缺乏内存的大型模型的微调 VRAM 需求,并使精度达到了 INT2.1。同时,我们的方法适用于其他量化标准,如 INT3,INT4 和 INT8,为模型量化领域带来了重大的里程碑。
Jun, 2023
通过利用低秩结构以及量化参数,本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型,以实现金融应用,并取得了较快的速度和高模型压缩比,同时保持了很高的准确率。
Feb, 2024