关于大型模型的低秩适应的公平性

May, 2024

关于大型模型的低秩适应的公平性

On Fairness of Low-Rank Adaptation of Large Models

Zhoujie Ding, Ken Ziyu Liu, Pura Peetathawatchai, Berivan Isik, Sanmi Koyejo

TL;DR通过对视觉和语言领域的分类和生成任务进行广泛实验，我们发现低秩适应（LoRA）在许多情况下具有与基准模型或其完整微调基准相当甚至更好的公平性，但也引发了适当任务设计和模型成员偏差评估等公平性评估方面的复杂性。

Abstract

low-rank adaptation of large models, particularly lora, has gained traction due to its computational efficiency. This efficiency, contrasted with the prohibitive costs of full-model fine-tuning, means that practi

发现论文，激发创造

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。

Jun, 2021

LoRA-FA: 内存高效的大语言模型低秩适应微调

LoRA-FA采用低内存量的权重更新方式，用于大型语言模型的微调，具有接近完整参数微调的准确性，降低了内存使用，技术优化了LoRA。

Aug, 2023

评估性别中性预训练视觉与语言模型的偏见和公平性

在这项研究中，我们以性别偏见为案例研究，通过量化预训练和微调对三类视觉与语言模型中的偏见放大进行分析，研究了这两个学习阶段之间的联系，并评估了偏见放大对模型性能的影响。总体来说，我们发现预训练和微调中的偏见放大是相互独立的。接着，我们研究了对性别中性数据的持续预训练对VQAv2和检索任务的影响，发现这种方法可以减少群体间的差异并提升公平性，而不会显著影响任务性能。

Oct, 2023

公平感知的Transformer结构剪枝

通过研究注意力头对大型语言模型的公平性和性能的影响，提出一种修剪注意力头的全新方法，能减少性别偏见约19％至39.5％，而性能仅稍微下降。

Dec, 2023

LoRA+：大型模型的高效低秩自适应

通过设置适当的比率为LoRA适配器矩阵A和B设置不同的学习率，我们提出了一种名为LoRA$+$的算法，解决了LoRA的次优问题同时提高了性能（1-2％改进）和微调速度（最高约2倍速度提升）的问题。

Feb, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点；此外，他们开发了LoRAX多模型推理服务器，支持多个LoRA fine-tuned模型在单个GPU上运行，以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。

Apr, 2024

低秩微调LLMs：公平视角

研究表明低秩逼近Fine-Tuning在捕捉Fine-Tuning数据集从初始预训练数据分布中的转变方面具有不足之处，会产生不可忽视的副作用，包括在针对有毒模型和提供公平模型的情景下意外保留不合理的偏差和有毒行为。此外，对于顺序决策任务，需要进行仔细评估以促进负责任的大型语言模型开发。

May, 2024

LoRA-GA：基于梯度近似的低秩适应

LoRA-GA通过引入一种新的初始化方法，即梯度近似初始化（Low Rank Adaptation with Gradient Approximation），能够在保持效率和性能的同时达到与完全微调相当的收敛速度，进而显著提高模型性能和收敛速度。

Jul, 2024

偏见意识低秩适应：缓解大型语言模型的灾难性继承

该研究针对大型语言模型在下游应用中面临的偏见传播问题，提出了一种新的参数高效微调方法BA-LoRA。通过引入一致性、可多样性和奇异向量分解的正则化项，BA-LoRA在多种自然语言理解和生成任务中表现优于现有的LoRA及其先进变体，有效减轻了预训练数据带来的偏见影响。

Aug, 2024

AdaRank：基于分歧的低秩适应模块排名预测

本研究针对当前大规模语言和多模态模型在下游任务适应中的效率瓶颈，提出了一种新的模型分歧技术AdaRank，用于预测模块的相对秩。实验证明，AdaRank在未见数据上的泛化能力显著优于统一秩的方法，且无需对预训练和适应阶段进行额外修改，从而提高了适应精度和性能。

Aug, 2024