AdaZeta：自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

Jun, 2024

AdaZeta：自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning

Yifan Yang, Kai Zhen, Ershad Banijamal, Athanasios Mouchtaris, Zheng Zhang

TL;DR通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架，本文致力于改进 ZO 方法的性能和收敛性，主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题，通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。

Abstract

fine-tuning large language models (LLMs) has achieved remarkable performance across various natural language processing tasks, yet it demands more and more memory as model sizes keep growing. To address this issu

fine-tuning large language models memory-efficient zeroth-order methods adaptive zeroth-order tensor-train adaption convergence speed

发现论文，激发创造

利用仅前向传递微调语言模型

本篇论文提出了一种名为 MeZO 的零阶优化方法，以替代反向传播法来进行大规模语言模型的微调，从而实现与推理阶段相同的内存占用，该方法在理论上被认为优化大型模型的速度极慢，但本研究的实验结果表明，MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型，并在多个下游任务上与反向传播微调的性能相当。

May, 2023

重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

本研究旨在提出一种采用零阶优化的方法，以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销，从而实现内存更高效的模型微调。

Feb, 2024

ZO-AdaMU 优化器：零阶优化中动量和不确定性的适应扰动

MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销，缺少动量正则化，而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题，收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。

Dec, 2023

稀疏 MeZO: 更少参数在零阶 LLM 微调中取得更好性能

通过稀疏的零阶优化方法，提高大型语言模型的内存效率并改善性能。

Feb, 2024

零阶极度稀疏 LLMs 的微调

本研究通过将稀疏性和量化技术整合到零阶优化（ZO）细调的大型语言模型（LLM）中，从而解决在内存受限环境（如移动电话和笔记本电脑）中使用 ZO 细调的挑战。研究结果表明，使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调，并同时提供加速的速度。此外，结合 4 位量化技术，ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。

Jun, 2024

用于调优语言模型的方差减小型零阶方法

利用内存高效的零阶优化方法和方差缩减技术，提出了一种内存高效的零阶随机方差缩减梯度（MeZO-SVRG）的 LM 微调方法，它在多个任务中都表现出卓越的稳定性和收敛性，且减少了存储占用。

Apr, 2024

LLM 模型的无痛二阶微调：基于黑塞矩阵的零阶优化器

使用对角度黑塞矩阵增强零阶优化算法以提高大型语言模型的微调效果，显著减少训练步骤并有效增强模型准确性。

Feb, 2024

大型语言模型中零阶联邦调优的收敛性

联邦学习和大型语言模型的交汇为隐私保护自然语言处理开启了新时代，提出了一种将内存高效的零阶优化与联邦设置相结合的方法 FedMeZO，以加快收敛速度和减少 GPU 内存使用。

Feb, 2024

ZO-AdaMM：零阶自适应动量方法用于黑盒优化

该研究提出了一种名为 ZO-AdaMM 的零阶梯度黑盒优化方法，它将 AdaMM 通用于无梯度形式的场景，并阐述了它的收敛率问题以及在非凸约束优化问题中的适用性，最终通过 ImageNet 数据的两个实验应用证明了 ZO-AdaMM 的高精确度和快速收敛能力。

Oct, 2019

DPZero: 无维度限制和差分隐私的零阶优化

通过零阶方法进行微调预训练语言模型，以解决精调大型语言模型在内存和隐私方面面临的挑战。DPZero 是一个新的具有几乎维度无关率的差分隐私零阶算法，对于实际中的语言模型部署具有高度实用性。

Oct, 2023