QuanTA：量子信息张量调整下高级别语言模型的高效微调

May, 2024

QuanTA：量子信息张量调整下高级别语言模型的高效微调

QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation

Zhuo Chen, Rumen Dangovski, Charlotte Loh, Owen Dugan, Di Luo...

TL;DR该研究提出了一种名为量子指导张量适应（QuanTA）的新型、易于实现、没有推理开销的微调方法，引入了量子电路结构的量子启发方法，实现了有效的高秩微调，超越了低秩适应方法（LoRA）在复杂下游任务中可能失败的局限性。实验表明，与传统方法相比，QuanTA 显著提高了常识推理、算术推理和可扩展性。此外，QuanTA 在可训练参数较少的情况下表现出优越性，并可以与现有微调算法相结合以进一步改进，为微调大型语言模型提供可扩展和高效的解决方案，推进自然语言处理的最新技术。

Abstract

We propose quantum-informed tensor adaptation (QuanTA), a novel, easy-to-implement, fine-tuning method with no inference overhead for large-scale

quantum-informed tensor adaptation fine-tuning large-scale pre-trained language models commonsense reasoning scalability

发现论文，激发创造

LoftQ: 针对大型语言模型的 LoRA 微调感知量化

我们提出了 LoftQ，这是一个新的量化框架，旨在同时量化 LLM 并为 LoRA fine-tuning 找到适当的低秩初始化，以改善量化和全精度模型之间的差异，并显著提高下游任务的泛化性能。

Oct, 2023

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。

Feb, 2024

QA-LoRA：大型语言模型的量化感知低秩适应

我们提出了一种量化感知的低秩自适应算法（QA-LoRA），通过使用分组运算符，增加量化的自由度，减少自适应的自由度，将大型语言模型（LLMs）权重量化以减少时间和内存使用，并将 LLM 和辅助权重自然地集成到一个量化模型中，而不损失准确性。我们应用 QA-LoRA 算法于 LLaMA 和 LLaMA2 模型系列，并在不同的微调数据集和下游场景中验证了其有效性。

Sep, 2023

LoQT: 低秩适配模块用于量化训练

LoQT 是一种用于高效训练量化模型的方法，它使用基于梯度的张量分解来初始化可训练的低秩权重矩阵，并周期性地合并到量化全秩权重矩阵中。我们发现 LoQT 使得在消费级 24GB GPU 上能够高效地训练高达 7B 参数的模型，并且还展示了在相同硬件上使用逐层梯度更新训练 13B 参数模型的可行性。

May, 2024

QDyLoRA：用于高效大型语言模型调优的量化动态低秩自适应

QLoRA 和 QDyLoRA 是一种用于大型语言模型的有效量化方法，能够在 GPU 内存限制下进行适应性微调，并在寻找适合的低秩参数方面具有竞争力。

Feb, 2024

ApiQ: 2 位量化大型语言模型的精调

通过引入一种名为 ApiQ 的新型量化框架，本文解决了在大型语言模型中进行内存高效微调时，量化过程对预训练模型的知识损失以及错误传播所造成的问题，从而实现了在各种量化位宽下始终取得卓越的微调结果。

Feb, 2024

贝叶斯 - LoRA：使用最佳量化水平和等级值通过可微分贝叶斯门进行参数高效微调的基于 LoRA 的方法

在这项研究中，我们提出了一种基于贝叶斯角度的矩阵分解和量化方法，名为 B-LoRA，通过对学习到的低秩矩阵的量化级别和秩值引入先验分布，使其能够在特定任务上对预训练模型进行精细调节，找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证，并将其与相关基准进行比较，我们展示了该方法如何学习到最优秩的量化矩阵，相比基线方法，B-LoRA 在性能上与基线相当或更好，并且减少了大约 70% 的总比特操作量。

Jun, 2024

基于低于 4 位整数量化的大规模压缩语言模型记忆高效调优

提出了一种基于量化的参数高效微调方法 PEQA，通过一个双阶段的策略将每个全连接层的参数矩阵量化成低比特整数矩阵和标量向量，然后对每个下游任务的标量向量进行微调，从而在模型压缩和加速推理的同时，实现了快速微调和高效任务切换，并在大型语言模型上进行了全面的实验。

May, 2023

LQ-LoRA: 用于语言模型微调的低秩加量化矩阵分解

我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中，量化部分保持固定，只有低秩部分被更新。我们提出了量化部分的整数线性规划形式，可以在总体存储器预算的情况下动态配置量化参数（例如，位宽，块大小）给每个矩阵。我们进一步探索了数据感知版本的算法，该算法使用 Fisher 信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应 RoBERTa 和 LLaMA-2（7B 和 70B）的实验中，我们的低秩加量化矩阵分解方法（LQ-LoRA）优于 QLoRA 和 GPTQ-LoRA 基准，并且能实现更激进的量化。例如，在 OpenAssistant 基准测试中，LQ-LoRA 能够学习一个 2.5 位的 LLaMA-2 模型，与使用 4 位 QLoRA 微调的模型竞争。在语言建模校准数据集上微调时，LQ-LoRA 还可以用于模型压缩；在这种情况下，我们的 2.75 位 LLaMA-2-70B 模型（考虑了低秩部分的平均位数，并且需要 27GB 的 GPU 内存）与原始模型在全精度上竞争。

Nov, 2023