LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

Apr, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg...

TL;DRLoRA是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点；此外，他们开发了LoRAX多模型推理服务器，支持多个LoRA fine-tuned模型在单个GPU上运行，以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。

Abstract

low rank adaptation (LoRA) has emerged as one of the most widely adopted methods for parameter efficient fine-tuning (PEFT) of large language mod

发现论文，激发创造

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。

Jun, 2021

LoRA-FA: 内存高效的大语言模型低秩适应微调

LoRA-FA采用低内存量的权重更新方式，用于大型语言模型的微调，具有接近完整参数微调的准确性，降低了内存使用，技术优化了LoRA。

Aug, 2023

S-LoRA：为数千个并发的LoRA适配器提供服务

通过使用S-LoRA系统，可以在单个GPU上或多个GPU上以较小的开销提高吞吐量并使LoRA适配器的数量成倍增加，从而实现可伸缩的运行多个Fine-tuned模型的服务。

Nov, 2023

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过LoRA方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

ASPEN：使用单个GPU实现高吞吐量的大型语言模型LoRA微调

ASPEN是一个高吞吐量的fine-tuning框架，通过LoRA方法在单个GPU上高效地训练多个任务，使用共享的预训练模型和自适应调度，可以显著节省GPU内存并提高训练吞吐量，同时减少工作轮转时间和训练延迟。

Dec, 2023

用于细调的Rank稳定化缩放因子及其LoRA方法

通过修改Low-Rank Adapters方法中的缩放因子，我们提出了一种称为rank-stabilized LoRA (rsLoRA)的方法，可以在训练期间用更多的计算资源来换取更好的fine-tuning性能，并且在推理计算成本不变的情况下实现了fine-tuning计算性能的折中。

Nov, 2023

LoRA链：通过剩余学习对语言模型进行高效微调

通过梯度投影方法，我们提出了一种新的迭代优化框架COLA，通过将学习的链式LoRA模块与预训练的语言模型参数进行融合，并为新生成的LoRA模块重新初始化优化过程，从而在无需额外的计算和内存成本的情况下弥合了LoRA和完全参数微调之间的差距。

Jan, 2024

LoRA-XS：低秩适应与极小参数

介绍了一种新的参数高效微调方法LoRA-XS，利用奇异值分解（SVD）在参数高效微调方面取得显著的结果，特别是在较大模型上，比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。

May, 2024

LoRA$^2$: 多尺度低秩近似用于大型语言模型微调

本研究解决了在复杂下游任务中，单一尺度更新参数可能不是最佳选择的问题。通过扩展低秩适应方法（LoRA）到多尺度，提出了LoRA$^2$，并结合正交投影理论和改进的重要性评分算法，显著减少了训练参数数量，提升了适应性和性能。研究结果表明，LoRA$^2$在微调中仅需0.72%的参数，仍能实现与基线相当的性能，展现了其高效性和潜在影响。

Aug, 2024

KD-LoRA：一种结合LoRA与知识蒸馏的高效微调混合方法

本文研究了大型语言模型在微调中的高计算和内存需求问题，并提出了一种新颖的混合微调方法KD-LoRA，结合了低秩适应（LoRA）和知识蒸馏（KD）。研究表明，KD-LoRA在GLUE基准上保持了98%的性能，同时比LoRA更紧凑，显著减少了30%的GPU内存使用和推理时间。

Oct, 2024