NOLA：网络作为低秩随机基组合的线性组合

Oct, 2023

NOLA：网络作为低秩随机基组合的线性组合

NOLA: Networks as Linear Combination of Low Rank Random Basis

Soroush Abbasi Koohpayegani, KL Navaneet, Parsa Nooralinejad, Soheil Kolouri, Hamed Pirsiavash

TL;DR通过重新参数化使用线性组合随机生成的矩阵（基）的低秩矩阵，并仅优化线性混合系数，NOLA 将创新地克服了 LoRA 中的秩一下界，与等效参数计数的模型相比，NOLA 在自然语言处理和计算机视觉任务中表现得很好，并且证明能在更大的模型中减少一半的参数而不降低性能。

Abstract

large language models (LLMs) have recently gained popularity due to their impressive few-shot performance across various downstream tasks. However, fine-tuning all →

large language models fine-tuning low-rank modifications nola parameters

发现论文，激发创造

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

基于矩阵变换的低秩适应（MTLoRA）：一种启发式的参数高效微调方法

该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术，通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能，取得了显著的提升。

Mar, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

LoRA-XS：低秩适应与极小参数

介绍了一种新的参数高效微调方法 LoRA-XS，利用奇异值分解（SVD）在参数高效微调方面取得显著的结果，特别是在较大模型上，比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。

May, 2024

低秩适应的表达能力

使用低秩适应（LoRA）参数有效的微调方法，通过分析其表达能力和近似误差，证明了 LoRA 方法能够将预训练模型适应到较小目标模型，并适用于全连接神经网络和 Transformer 网络。

Oct, 2023

稀疏低秩的预训练语言模型适应

在对大规模预训练语言模型进行提升调优的过程中，我们通过引入稀疏低秩适应性的创新方法（SoRA），使得适应过程中能够动态地调整内在秩，从而提高 LoRA 的表现能力，同时通过更新稀疏方式高效地控制参数数量。实验结果表明，SoRA 在保留 70% 参数和训练时间的情况下，能够胜过其他基准模型。

Nov, 2023

MoRA: 参数高效微调的高阶更新

为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题，本文提出了一种名为 MoRA 的新方法，通过引入相应的非参数操作来降低输入维度并增加输出维度，从而实现了高秩更新，同时保持了可训练参数的数量，并在五个任务中对该方法进行了全面评估，结果显示我们的方法在占用内存的任务上表现优于 LoRA，并在其他任务上达到了可比较的性能。

May, 2024

贝叶斯 - LoRA：使用最佳量化水平和等级值通过可微分贝叶斯门进行参数高效微调的基于 LoRA 的方法

在这项研究中，我们提出了一种基于贝叶斯角度的矩阵分解和量化方法，名为 B-LoRA，通过对学习到的低秩矩阵的量化级别和秩值引入先验分布，使其能够在特定任务上对预训练模型进行精细调节，找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证，并将其与相关基准进行比较，我们展示了该方法如何学习到最优秩的量化矩阵，相比基线方法，B-LoRA 在性能上与基线相当或更好，并且减少了大约 70% 的总比特操作量。

Jun, 2024