QFT:量子化的低资源LLM全参数调整
提出了一种名为 LOw-Memory Optimization(LOMO)的新优化器,该优化器将梯度计算和参数更新融合为一步,可以在单台机器上通过充分利用记忆方案使大型语言模型(LLMs)进行全参数微调的训练过程中降低内存使用,并成功地在一台装有 8 个RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。
Jun, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
通过使用量化、分离网络和低秩适配器等方法,Quantized Side Tuning (QST)能够实现大型语言模型(LLMs)的内存高效、快速的微调,并在减少内存占用的同时达到与最先进方法相媲美的性能,可将总内存占用减少最多7倍。
Jan, 2024
大型语言模型(Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调(sparse fine-tuning)的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像LLaMA 2 7B和13B这样的最先进的LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如LoRA表现更好,并且在运行时间上可比较。
Jan, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
本研究通过将稀疏性和量化技术整合到零阶优化(ZO)细调的大型语言模型(LLM)中,从而解决在内存受限环境(如移动电话和笔记本电脑)中使用ZO细调的挑战。研究结果表明,使用ZO对LLM进行0.1%敏感参数细调能优于全面细调,并同时提供加速的速度。此外,结合4位量化技术,ZO对Llama2-7B模型的高效细调在GPU设备上不到8 GB内存的限制下实现了显著降低的延迟。
Jun, 2024
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为LR-QAT的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种PTQ技术无缝结合,有效提升模型性能并在内存使用上达到与全模型QAT相当的水平。
Jun, 2024
本研究解决了大语言模型微调过程中的速度、内存消耗和模型质量等多方面优化的挑战。我们提出了一种名为QEFT的新型轻量化技术,能够加速推理和微调,保持高灵活性和良好的硬件兼容性,同时在资源使用上具有优势。实验证明,QEFT在质量和灵活性方面与全精度参数高效微调相当。
Oct, 2024