INT2.1: 通过低秩适应实现误差校正的可微量化大语言模型
通过引入一种名为 ApiQ 的新型量化框架,本文解决了在大型语言模型中进行内存高效微调时,量化过程对预训练模型的知识损失以及错误传播所造成的问题,从而实现了在各种量化位宽下始终取得卓越的微调结果。
Feb, 2024
我们提出了 LoftQ,这是一个新的量化框架,旨在同时量化 LLM 并为 LoRA fine-tuning 找到适当的低秩初始化,以改善量化和全精度模型之间的差异,并显著提高下游任务的泛化性能。
Oct, 2023
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
我们提出了一种量化感知的低秩自适应算法(QA-LoRA),通过使用分组运算符,增加量化的自由度,减少自适应的自由度,将大型语言模型(LLMs)权重量化以减少时间和内存使用,并将 LLM 和辅助权重自然地集成到一个量化模型中,而不损失准确性。我们应用 QA-LoRA 算法于 LLaMA 和 LLaMA2 模型系列,并在不同的微调数据集和下游场景中验证了其有效性。
Sep, 2023
我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中,量化部分保持固定,只有低秩部分被更新。我们提出了量化部分的整数线性规划形式,可以在总体存储器预算的情况下动态配置量化参数(例如,位宽,块大小)给每个矩阵。我们进一步探索了数据感知版本的算法,该算法使用 Fisher 信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应 RoBERTa 和 LLaMA-2(7B 和 70B)的实验中,我们的低秩加量化矩阵分解方法(LQ-LoRA)优于 QLoRA 和 GPTQ-LoRA 基准,并且能实现更激进的量化。例如,在 OpenAssistant 基准测试中,LQ-LoRA 能够学习一个 2.5 位的 LLaMA-2 模型,与使用 4 位 QLoRA 微调的模型竞争。在语言建模校准数据集上微调时,LQ-LoRA 还可以用于模型压缩;在这种情况下,我们的 2.75 位 LLaMA-2-70B 模型(考虑了低秩部分的平均位数,并且需要 27GB 的 GPU 内存)与原始模型在全精度上竞争。
Nov, 2023
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
我们提出了一种内存高效的大型语言模型微调算法 (ModuLoRA),支持在只有一个 48GB 的 GPU 上以 3 位或 4 位精度对具有 65B 参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器 (LoRAs) 结合使用,我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA 在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,我们还超过了流行的摘要任务的最新 ROUGE 分数。我们将 ModuLoRA 与一系列低精度模型一起发布,其中包括第一个 3 位指令跟随型 Alpaca LLMs 系列,作为 LLMTOOLS 的一部分,LLMTOOLS 是一个用户友好的用于在消费级 GPU 上进行量化、运行和微调 LLMs 的库。
Sep, 2023
L4Q 是一种参数高效的量化感知训练算法,利用 LLMs 中学到的低秩适应性量化步长,实现对高精度模型的同时量化和微调,达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。
Feb, 2024
使用参数高效微调(PEFT)方法中的量化模型,通过细调大型语言模型(LLMs)自动为短答案和论文分配连续数值评分以及生成相关反馈,达到高准确性且成本和延迟相对较低。
May, 2024
该研究提出了一种名为量子指导张量适应(QuanTA)的新型、易于实现、没有推理开销的微调方法,引入了量子电路结构的量子启发方法,实现了有效的高秩微调,超越了低秩适应方法(LoRA)在复杂下游任务中可能失败的局限性。实验表明,与传统方法相比,QuanTA 显著提高了常识推理、算术推理和可扩展性。此外,QuanTA 在可训练参数较少的情况下表现出优越性,并可以与现有微调算法相结合以进一步改进,为微调大型语言模型提供可扩展和高效的解决方案,推进自然语言处理的最新技术。
May, 2024