Astraios: 参数高效调整代码的大规模语言模型

Jan, 2024

Astraios: 参数高效调整代码的大规模语言模型

Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models

Terry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries...

TL;DR基于 28 个调优方法和 4 个模型尺寸，通过对 5 项任务和 8 个不同数据集的研究，我们发现完全参数微调通常在所有尺度上都能提供最佳的下游性能，并且参数高效微调方法在模型规模上的功效存在显著差异。然而，LoRA 方法通常在成本和性能之间提供了最有利的平衡。此外，我们还发现较大的模型往往表现出较低的稳健性和较低的安全性。最后，我们探讨了更新的参数、交叉熵损失和任务性能之间的关系，并发现在小型模型中观察到的调优效果在大型模型中也普遍适用，指导性调优中的验证损失可以作为总体下游性能的可靠指标。

Abstract

The high cost of full-parameter fine-tuning (FFT) of Large Language Models (LLMs) has led to a series of parameter-efficient fine-tuning (

fine-tuning parameter-efficient model scales cost-performance trade-off octocoder models

发现论文，激发创造

代码大语言模型参数高效方法的实证研究及其向 R 的知识转移

通过实证研究 PEFT 方法（LoRA 和 Compacter）在 CodeT5 和 CodeLlama 上的表现，评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移，以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言，其具有广泛的社区，而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用，此外，研究 R 语言为使用 LLMs 于其他语言提供了新机会，我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。

Mar, 2024

大规模效率：探究微型语言模型在临床任务中的性能

对不同规模的模型以及临床决策任务的适用性进行研究，揭示大型语言模型的效果与 Parameter Efficient Fine-tuning 方法的关系，发现 LoRA 方法在各项任务和模型规模下都能保持较高的性能，专用模型在速度和训练成本上具有优越性，与大型基础语言模型相比效果更好，同时探讨了领域特定预训练与 PEFT 方法和模型规模之间的相互影响，以及提供最佳效率与性能平衡的因素。

Feb, 2024

大型语言模型微调中的稀疏矩阵

通过选择稀疏子矩阵以减少计算资源开销和内存消耗，我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法，用于填补参数有效微调（PEFT）与完全微调（FT）之间的性能差距，并在多个任务中展示了其超越了其他 PEFT 的基准方法（如 LoRA 和 DoRA），同时与 FT 相比，GPU 内存占用减少了 67%。

May, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

MoELoRA: 基于对比学习引导的专家混合模型在大型语言模型的参数高效微调中的应用

利用对比学习以鼓励专家学习不同特征的方式，我们介绍了一种新的参数效率微调方法 MoELoRA，它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。

Feb, 2024

Context-PEFT: 高效多模态、多任务微调

提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法（PEFT）框架，它通过 LoRA、BitFit 和 IA3 等技术，在几乎不需要可训练参数和 GPU 内存的情况下，展示了与预训练模型完全微调相当的性能，然而，在多模态微调中，经常需要进行架构修改或完全微调。为了解决这个问题，我们提出了 Context-PEFT，它根据令牌的领域学习不同的适配器参数组，这种方法使得可以实现类似 LoRA 的权重注入，而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估，在类似的数据限制下，优于完全微调，并同时提供了更高的参数效率和计算经济性的解决方案。

Dec, 2023

RoSA：鲁棒适应实现准确的参数高效微调

我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法（PEFT），我们提出了一种新的 PEFT 方法称为 Robust Adaptation（RoSA），通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件，有效地逼近全精调（FFT）解决方案的性能，在需要进行精细调整以获得良好性能的挑战性生成任务中，如小学数学和 SQL 查询生成，我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持，以在训练算法中补充，具体为稀疏 GPU 内核，实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。

Jan, 2024

HydraLoRA：一种用于高效微调的非对称 LoRA 架构

通过一系列实验，我们发现了两个关键的见解，揭示了 LoRA 的训练和参数效率问题，基于这些见解，我们开发了 HydraLoRA，这是一个具有不对称结构的 LoRA 框架，消除了对领域专业知识的需求，我们的实验表明，HydraLoRA 优于其他 PEFT 方法，即使在训练和推断阶段依赖领域知识的情况下。

Apr, 2024

低资源语言翻译的参数高效微调解锁

参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要，通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分，我们进行了具备不同资源和域的全面实证实验，评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明，6 种参数高效微调架构在域内和域外测试中均超过了基准线，其中 Houlsby+Inversion 适配器表现最佳，验证了参数高效微调方法的有效性。

Apr, 2024

利用大型语言模型进行代码生成的参数高效微调技术探究

通过对大规模语言模型进行参数高效微调技术的研究，本文在自动化代码生成场景下全面研究了这些技术对大规模语言模型的影响，实验结果表明这些技术在减轻计算负担和提高性能方面表现优越，为软件工程场景中的更广泛应用开启了机会。

Aug, 2023