大规模语言模型低秩适应的无导数优化

Mar, 2024

大规模语言模型低秩适应的无导数优化

Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models

Feihu Jin, Yin Liu, Ying Tan

TL;DR在少样本情境中，本研究通过将低秩模块添加到模型的自注意力层中，并采用两种无导数优化方法来交叉优化这些低秩模块，展示出与现有的基于梯度的参数高效调整和无导数优化方法相比，在多个任务和语言模型上取得了显著改进，并在内存使用和收敛速度方面表现出明显优势。

Abstract

parameter-efficient tuning methods such as lora could achieve comparable performance to model tuning by tuning a small portion of the parameters. However, substantial computational resources are still required, a

parameter-efficient tuning lora derivative-free optimization low-rank modules few-shot settings

发现论文，激发创造

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

稀疏低秩的预训练语言模型适应

在对大规模预训练语言模型进行提升调优的过程中，我们通过引入稀疏低秩适应性的创新方法（SoRA），使得适应过程中能够动态地调整内在秩，从而提高 LoRA 的表现能力，同时通过更新稀疏方式高效地控制参数数量。实验结果表明，SoRA 在保留 70% 参数和训练时间的情况下，能够胜过其他基准模型。

Nov, 2023

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

SuperLoRA: 多层注意力模块参数高效统一适应

提出了一个称为 SuperLoRA 的广义框架，将不同的 LoRA 变体统一并扩展，通过引入分组、折叠、洗牌、投影和张量分解等方法，SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性，在转移学习任务中表现出卓越的性能，尤其在极低参数的情况下表现出色。

Mar, 2024

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

LoRA-XS：低秩适应与极小参数

介绍了一种新的参数高效微调方法 LoRA-XS，利用奇异值分解（SVD）在参数高效微调方面取得显著的结果，特别是在较大模型上，比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。

May, 2024

LoTR：低张量秩权重适应

本文提出了一种新颖的参数高效微调方法 LoTR，通过张量分解的形式对参数进行梯度更新，进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩，尤其适用于深度模型，相比于 LoRA 具有更好的参数效率，且核心张量不依赖于原始权重维度，可以变得任意小，可实现极为廉价快速的下游微调。

Feb, 2024

NTK 条件下的 LoRA 训练无虚假局部极小值

通过理论分析，在神经切线核（NTK）范式下，我们发现使用低秩适应（LoRA）进行微调有助于消除虚假的局部极小值点，从而使得梯度下降算法可以找到低秩解。

Feb, 2024

基于 Transformer 模型的低秩自适应 (LoRA) 的计算限制

通过在梯度计算中寻找低秩分解，我们研究了基于变换器模型的低秩适应（LoRA）更新的计算极限，证明了算法加速的可能性，并通过控制 LoRA 更新的计算项，基于 Strong Exponential Time Hypothesis (SETH) 实现了近乎线性的算法。

Jun, 2024