大型语言模型微调的优化研究

Jun, 2024

A Study of Optimizations for Fine-tuning Large Language Models

Arjun Singh, Nikhil Pandey, Anup Shirgaonkar, Pavan Manoj, Vijay Aski

TL;DR研究中通过深入研究 Fine-tuning 的优化策略和技术，探讨了对于具有大量参数的语言模型在 GPU 资源限制下，平衡内存和运行时间的最佳优化方案。

Abstract

fine-tuning large language models is a popular choice among users trying to adapt them for specific applications. However, fine-tuning the

fine-tuning large language models optimizations gpu memory runtime

发现论文，激发创造

有限资源下的大型语言模型全参数微调

提出了一种名为 LOw-Memory Optimization（LOMO）的新优化器，该优化器将梯度计算和参数更新融合为一步，可以在单台机器上通过充分利用记忆方案使大型语言模型（LLMs）进行全参数微调的训练过程中降低内存使用，并成功地在一台装有 8 个 RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。

Jun, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

本研究旨在提出一种采用零阶优化的方法，以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销，从而实现内存更高效的模型微调。

Feb, 2024

HiFT: 一种分层全参数微调策略

通过 HiFT 这一新的、独立于优化器的端到端分层微调策略，我们能够在训练步骤中仅更新子参数集合，从而显著减少梯度和优化器状态参数在 GPU 内存中的占用量，并降低超大模型全参数微调时的 GPU 内存使用。

Jan, 2024

利用仅前向传递微调语言模型

本篇论文提出了一种名为 MeZO 的零阶优化方法，以替代反向传播法来进行大规模语言模型的微调，从而实现与推理阶段相同的内存占用，该方法在理论上被认为优化大型模型的速度极慢，但本研究的实验结果表明，MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型，并在多个下游任务上与反向传播微调的性能相当。

May, 2023

缩小规模以进行高效参数微调指南

本文系统概述和比较了 40 多篇发表于 2019 年 2 月至 2023 年 2 月之间的参数高效微调方法，这些方法旨在通过仅训练小量参数来解决微调大型语言模型的不可行性和不实用性，提供了一种包括多种方法的分类方法，并重点关注实际效率和微调超大规模语言模型。

Mar, 2023

零阶极度稀疏 LLMs 的微调

本研究通过将稀疏性和量化技术整合到零阶优化（ZO）细调的大型语言模型（LLM）中，从而解决在内存受限环境（如移动电话和笔记本电脑）中使用 ZO 细调的挑战。研究结果表明，使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调，并同时提供加速的速度。此外，结合 4 位量化技术，ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。

Jun, 2024

大规模分布式模型训练的高效并行化布局

通过对大型语言模型的多种训练配置进行全面的消融研究，我们总结出几个关键建议，以实现最高效的训练，例如，我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性，并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果，尤其是在训练 13B 模型时，模型 FLOPs 利用率达到了 70.5%。

Nov, 2023

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

单个 GPU 实现数据效率：小型语言模型转移方法探索

本文探讨了在小语言模型中，模型规模大小，多任务学习，指令调整，fine-tuning 和域内学习等对模型性能影响，其中通用 MTL 和域内 MTL 能够分别提升模型相对 31% 和 37.6% 的效果，并且与先前的研究结果不同，指令调整仅提供了小幅度的 2% 性能改进。

Oct, 2022