ApiQ: 2位量化大型语言模型的精调
本文提出了一种新的方法,使用极度节约内存的微调方法和Low-Rank Adaptation (LoRA) 对异常进行纠正,从而显著减少了缺乏内存的大型模型的微调VRAM需求,并使精度达到了INT2.1。同时,我们的方法适用于其他量化标准,如INT3,INT4和INT8,为模型量化领域带来了重大的里程碑。
Jun, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
我们提出了一种内存高效的大型语言模型微调算法(ModuLoRA),支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用,我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,我们还超过了流行的摘要任务的最新ROUGE分数。我们将ModuLoRA与一系列低精度模型一起发布,其中包括第一个3位指令跟随型Alpaca LLMs系列,作为LLMTOOLS的一部分,LLMTOOLS是一个用户友好的用于在消费级GPU上进行量化、运行和微调LLMs的库。
Sep, 2023
我们提出了LoftQ,这是一个新的量化框架,旨在同时量化LLM并为LoRA fine-tuning找到适当的低秩初始化,以改善量化和全精度模型之间的差异,并显著提高下游任务的泛化性能。
Oct, 2023
我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中,量化部分保持固定,只有低秩部分被更新。我们提出了量化部分的整数线性规划形式,可以在总体存储器预算的情况下动态配置量化参数(例如,位宽,块大小)给每个矩阵。我们进一步探索了数据感知版本的算法,该算法使用Fisher信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应RoBERTa和LLaMA-2(7B和70B)的实验中,我们的低秩加量化矩阵分解方法(LQ-LoRA)优于QLoRA和GPTQ-LoRA基准,并且能实现更激进的量化。例如,在OpenAssistant基准测试中,LQ-LoRA能够学习一个2.5位的LLaMA-2模型,与使用4位QLoRA微调的模型竞争。在语言建模校准数据集上微调时,LQ-LoRA还可以用于模型压缩;在这种情况下,我们的2.75位LLaMA-2-70B模型(考虑了低秩部分的平均位数,并且需要27GB的GPU内存)与原始模型在全精度上竞争。
Nov, 2023
通过使用量化、分离网络和低秩适配器等方法,Quantized Side Tuning (QST)能够实现大型语言模型(LLMs)的内存高效、快速的微调,并在减少内存占用的同时达到与最先进方法相媲美的性能,可将总内存占用减少最多7倍。
Jan, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
本研究针对大型语言模型的优化问题,评估了后训练量化(PTQ)和量化感知训练(QAT)两种量化技术。研究提出了一种新的理论框架,可以通过层灵敏度和权重方差来推导最佳比特分配策略,实验表明该方法可在显著降低模型大小和计算成本的同时保持性能。最显著的发现是,该量化方法在边缘设备上实现了大幅度的吞吐量提升和功耗降低。
Nov, 2024