LaMDA：通过频谱分解的低维度调整进行大模型微调

Jun, 2024

LaMDA：通过频谱分解的低维度调整进行大模型微调

LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation

Seyedarmin Azizi, Souvik Kundu, Massoud Pedram

TL;DR通过光谱分解低维适应性的大型模型微调，LaMDA 可以在减少可训练参数和峰值 GPU 内存使用的同时，达到与现有替代方案相当甚至更好的性能。

Abstract

low-rank adaptation (LoRA) has become the default approach to fine-tune large language models (LLMs) due to its significant reduction in trainable parameters. However, trainable parameter demand for LoRA increases with increasing model embedding dimensions, leading to high compute cost

low-rank adaptation large language models spectrally decomposed low-dimensional adaptation trainable parameters peak gpu memory

发现论文，激发创造

LoRA-FA: 内存高效的大语言模型低秩适应微调

LoRA-FA 采用低内存量的权重更新方式，用于大型语言模型的微调，具有接近完整参数微调的准确性，降低了内存使用，技术优化了 LoRA。

Aug, 2023

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

LQ-LoRA: 用于语言模型微调的低秩加量化矩阵分解

我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中，量化部分保持固定，只有低秩部分被更新。我们提出了量化部分的整数线性规划形式，可以在总体存储器预算的情况下动态配置量化参数（例如，位宽，块大小）给每个矩阵。我们进一步探索了数据感知版本的算法，该算法使用 Fisher 信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应 RoBERTa 和 LLaMA-2（7B 和 70B）的实验中，我们的低秩加量化矩阵分解方法（LQ-LoRA）优于 QLoRA 和 GPTQ-LoRA 基准，并且能实现更激进的量化。例如，在 OpenAssistant 基准测试中，LQ-LoRA 能够学习一个 2.5 位的 LLaMA-2 模型，与使用 4 位 QLoRA 微调的模型竞争。在语言建模校准数据集上微调时，LQ-LoRA 还可以用于模型压缩；在这种情况下，我们的 2.75 位 LLaMA-2-70B 模型（考虑了低秩部分的平均位数，并且需要 27GB 的 GPU 内存）与原始模型在全精度上竞争。

Nov, 2023

DyLoRA: 使用动态无搜索低秩适应进行参数高效微调预训练模型

本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术，旨在通过训练预训练模型的适配器模块，为多个秩数建立动态搜索免费的模型，并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。

Oct, 2022

基于矩阵变换的低秩适应（MTLoRA）：一种启发式的参数高效微调方法

该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术，通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能，取得了显著的提升。

Mar, 2024

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

NOLA：网络作为低秩随机基组合的线性组合

通过重新参数化使用线性组合随机生成的矩阵（基）的低秩矩阵，并仅优化线性混合系数，NOLA 将创新地克服了 LoRA 中的秩一下界，与等效参数计数的模型相比，NOLA 在自然语言处理和计算机视觉任务中表现得很好，并且证明能在更大的模型中减少一半的参数而不降低性能。

Oct, 2023

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

LoRA+：大型模型的高效低秩自适应

通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率，我们提出了一种名为 LoRA$+$ 的算法，解决了 LoRA 的次优问题同时提高了性能（1-2％改进）和微调速度（最高约 2 倍速度提升）的问题。

Feb, 2024