LLM 模型的无痛二阶微调：基于黑塞矩阵的零阶优化器

Feb, 2024

LLM 模型的无痛二阶微调：基于黑塞矩阵的零阶优化器

Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed Zeroth-Order Optimizer

Yanjun Zhao, Sizhe Dang, Haishan Ye, Guang Dai, Yi Qian...

TL;DR使用对角度黑塞矩阵增强零阶优化算法以提高大型语言模型的微调效果，显著减少训练步骤并有效增强模型准确性。

Abstract

fine-tuning large language models (LLMs) with classic first-order optimizers entails prohibitive GPU memory due to the backpropagation process. Recent works have turned to zeroth-order optimizers for

large language models zeroth-order optimizer hessian fine-tuning model convergence

发现论文，激发创造

重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

本研究旨在提出一种采用零阶优化的方法，以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销，从而实现内存更高效的模型微调。

Feb, 2024

零阶极度稀疏 LLMs 的微调

本研究通过将稀疏性和量化技术整合到零阶优化（ZO）细调的大型语言模型（LLM）中，从而解决在内存受限环境（如移动电话和笔记本电脑）中使用 ZO 细调的挑战。研究结果表明，使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调，并同时提供加速的速度。此外，结合 4 位量化技术，ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。

Jun, 2024

利用仅前向传递微调语言模型

本篇论文提出了一种名为 MeZO 的零阶优化方法，以替代反向传播法来进行大规模语言模型的微调，从而实现与推理阶段相同的内存占用，该方法在理论上被认为优化大型模型的速度极慢，但本研究的实验结果表明，MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型，并在多个下游任务上与反向传播微调的性能相当。

May, 2023

AdaZeta：自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架，本文致力于改进 ZO 方法的性能和收敛性，主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题，通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。

Jun, 2024

DPZero: 无维度限制和差分隐私的零阶优化

通过零阶方法进行微调预训练语言模型，以解决精调大型语言模型在内存和隐私方面面临的挑战。DPZero 是一个新的具有几乎维度无关率的差分隐私零阶算法，对于实际中的语言模型部署具有高度实用性。

Oct, 2023

稀疏 MeZO: 更少参数在零阶 LLM 微调中取得更好性能

通过稀疏的零阶优化方法，提高大型语言模型的内存效率并改善性能。

Feb, 2024

基于 Hessian 感知的零阶优化黑盒对抗攻击

本文提出了一个基于 Hessian 矩阵的零阶优化算法 ZO-HessAware，用于黑盒对抗攻击，该算法的实验证明在结构化 Hessian 逼近的情况下，具有更好的零阶收敛率和查询复杂度。

Dec, 2018

HiFT: 一种分层全参数微调策略

通过 HiFT 这一新的、独立于优化器的端到端分层微调策略，我们能够在训练步骤中仅更新子参数集合，从而显著减少梯度和优化器状态参数在 GPU 内存中的占用量，并降低超大模型全参数微调时的 GPU 内存使用。

Jan, 2024

二阶优化中的模糊超参数更新

这篇研究介绍了一种混合方法，用于加快二阶优化中的收敛速度。介绍了对角黑塞矩阵的在线有限差分近似方法，以及对多个超参数的模糊推理。取得了竞争力的结果。

Mar, 2024

用于调优语言模型的方差减小型零阶方法

利用内存高效的零阶优化方法和方差缩减技术，提出了一种内存高效的零阶随机方差缩减梯度（MeZO-SVRG）的 LM 微调方法，它在多个任务中都表现出卓越的稳定性和收敛性，且减少了存储占用。

Apr, 2024