重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

Feb, 2024

重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark

Yihua Zhang, Pingzhi Li, Junyuan Hong, Jiaxiang Li, Yimeng Zhang...

TL;DR本研究旨在提出一种采用零阶优化的方法，以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销，从而实现内存更高效的模型微调。

Abstract

In the evolving landscape of natural language processing (NLP), fine-tuning pre-trained large language models (LLMs) with first-order (FO)

natural language processing large language models fine-tuning zeroth-order optimization memory efficiency

发现论文，激发创造

利用仅前向传递微调语言模型

本篇论文提出了一种名为 MeZO 的零阶优化方法，以替代反向传播法来进行大规模语言模型的微调，从而实现与推理阶段相同的内存占用，该方法在理论上被认为优化大型模型的速度极慢，但本研究的实验结果表明，MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型，并在多个下游任务上与反向传播微调的性能相当。

May, 2023

零阶极度稀疏 LLMs 的微调

本研究通过将稀疏性和量化技术整合到零阶优化（ZO）细调的大型语言模型（LLM）中，从而解决在内存受限环境（如移动电话和笔记本电脑）中使用 ZO 细调的挑战。研究结果表明，使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调，并同时提供加速的速度。此外，结合 4 位量化技术，ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。

Jun, 2024

稀疏 MeZO: 更少参数在零阶 LLM 微调中取得更好性能

通过稀疏的零阶优化方法，提高大型语言模型的内存效率并改善性能。

Feb, 2024

用于调优语言模型的方差减小型零阶方法

利用内存高效的零阶优化方法和方差缩减技术，提出了一种内存高效的零阶随机方差缩减梯度（MeZO-SVRG）的 LM 微调方法，它在多个任务中都表现出卓越的稳定性和收敛性，且减少了存储占用。

Apr, 2024

AdaZeta：自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架，本文致力于改进 ZO 方法的性能和收敛性，主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题，通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。

Jun, 2024

LLM 模型的无痛二阶微调：基于黑塞矩阵的零阶优化器

使用对角度黑塞矩阵增强零阶优化算法以提高大型语言模型的微调效果，显著减少训练步骤并有效增强模型准确性。

Feb, 2024

DPZero: 无维度限制和差分隐私的零阶优化

通过零阶方法进行微调预训练语言模型，以解决精调大型语言模型在内存和隐私方面面临的挑战。DPZero 是一个新的具有几乎维度无关率的差分隐私零阶算法，对于实际中的语言模型部署具有高度实用性。

Oct, 2023

大型语言模型中零阶联邦调优的收敛性

联邦学习和大型语言模型的交汇为隐私保护自然语言处理开启了新时代，提出了一种将内存高效的零阶优化与联邦设置相结合的方法 FedMeZO，以加快收敛速度和减少 GPU 内存使用。

Feb, 2024

规模化大型语言模型微调的差分隐私零阶方法

本文研究了差分隐私零阶方法在预训练语言模型中的潜力，通过近似梯度避免了 SGD 的可扩展性瓶颈，并提出了动态调度超参数的阶段性差分隐私零阶方法和减少可训练参数的数据无关剪枝技术，从理论和实证分析了这两种方法的效果。

Feb, 2024

DeepZero：扩展零阶优化以提升深度模型训练

DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架，通过三个主要创新使得 ZO 优化可用于深度神经网络的训练，同时实现了与一阶优化相当的性能，其优点包括坐标梯度估计（CGE）在训练准确性和计算效率上的优势，以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议，并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。

Oct, 2023