利用仅前向传递微调语言模型

May, 2023

Fine-Tuning Language Models with Just Forward Passes

Sadhika Malladi, Tianyu Gao, Eshaan Nichani, Alex Damian, Jason D. Lee...

TL;DR本篇论文提出了一种名为 MeZO 的零阶优化方法，以替代反向传播法来进行大规模语言模型的微调，从而实现与推理阶段相同的内存占用，该方法在理论上被认为优化大型模型的速度极慢，但本研究的实验结果表明，MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型，并在多个下游任务上与反向传播微调的性能相当。

Abstract

fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in princi

zeroth-order optimizer memory-efficient fine-tuning language models downstream tasks

发现论文，激发创造

稀疏 MeZO: 更少参数在零阶 LLM 微调中取得更好性能

通过稀疏的零阶优化方法，提高大型语言模型的内存效率并改善性能。

Feb, 2024

用于调优语言模型的方差减小型零阶方法

利用内存高效的零阶优化方法和方差缩减技术，提出了一种内存高效的零阶随机方差缩减梯度（MeZO-SVRG）的 LM 微调方法，它在多个任务中都表现出卓越的稳定性和收敛性，且减少了存储占用。

Apr, 2024

重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

本研究旨在提出一种采用零阶优化的方法，以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销，从而实现内存更高效的模型微调。

Feb, 2024

零阶极度稀疏 LLMs 的微调

本研究通过将稀疏性和量化技术整合到零阶优化（ZO）细调的大型语言模型（LLM）中，从而解决在内存受限环境（如移动电话和笔记本电脑）中使用 ZO 细调的挑战。研究结果表明，使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调，并同时提供加速的速度。此外，结合 4 位量化技术，ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。

Jun, 2024

AdaZeta：自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架，本文致力于改进 ZO 方法的性能和收敛性，主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题，通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。

Jun, 2024

ZO-AdaMU 优化器：零阶优化中动量和不确定性的适应扰动

MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销，缺少动量正则化，而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题，收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。

Dec, 2023

LLM 模型的无痛二阶微调：基于黑塞矩阵的零阶优化器

使用对角度黑塞矩阵增强零阶优化算法以提高大型语言模型的微调效果，显著减少训练步骤并有效增强模型准确性。

Feb, 2024

大型语言模型中零阶联邦调优的收敛性

联邦学习和大型语言模型的交汇为隐私保护自然语言处理开启了新时代，提出了一种将内存高效的零阶优化与联邦设置相结合的方法 FedMeZO，以加快收敛速度和减少 GPU 内存使用。

Feb, 2024

DPZero: 无维度限制和差分隐私的零阶优化

通过零阶方法进行微调预训练语言模型，以解决精调大型语言模型在内存和隐私方面面临的挑战。DPZero 是一个新的具有几乎维度无关率的差分隐私零阶算法，对于实际中的语言模型部署具有高度实用性。

Oct, 2023

DeepZero：扩展零阶优化以提升深度模型训练

DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架，通过三个主要创新使得 ZO 优化可用于深度神经网络的训练，同时实现了与一阶优化相当的性能，其优点包括坐标梯度估计（CGE）在训练准确性和计算效率上的优势，以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议，并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。

Oct, 2023