LLM 模型的无痛二阶微调:基于黑塞矩阵的零阶优化器
本研究旨在提出一种采用零阶优化的方法,以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销,从而实现内存更高效的模型微调。
Feb, 2024
本研究通过将稀疏性和量化技术整合到零阶优化(ZO)细调的大型语言模型(LLM)中,从而解决在内存受限环境(如移动电话和笔记本电脑)中使用 ZO 细调的挑战。研究结果表明,使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调,并同时提供加速的速度。此外,结合 4 位量化技术,ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。
Jun, 2024
本篇论文提出了一种名为 MeZO 的零阶优化方法,以替代反向传播法来进行大规模语言模型的微调,从而实现与推理阶段相同的内存占用,该方法在理论上被认为优化大型模型的速度极慢,但本研究的实验结果表明,MeZO 能够使用少至单个 A100 80GB GPU 就能训练出具有几十亿甚至数百亿参数规模的语言模型,并在多个下游任务上与反向传播微调的性能相当。
May, 2023
通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架,本文致力于改进 ZO 方法的性能和收敛性,主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题,通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。
Jun, 2024
通过零阶方法进行微调预训练语言模型,以解决精调大型语言模型在内存和隐私方面面临的挑战。DPZero 是一个新的具有几乎维度无关率的差分隐私零阶算法,对于实际中的语言模型部署具有高度实用性。
Oct, 2023
本文提出了一个基于 Hessian 矩阵的零阶优化算法 ZO-HessAware,用于黑盒对抗攻击,该算法的实验证明在结构化 Hessian 逼近的情况下,具有更好的零阶收敛率和查询复杂度。
Dec, 2018
通过 HiFT 这一新的、独立于优化器的端到端分层微调策略,我们能够在训练步骤中仅更新子参数集合,从而显著减少梯度和优化器状态参数在 GPU 内存中的占用量,并降低超大模型全参数微调时的 GPU 内存使用。
Jan, 2024
利用内存高效的零阶优化方法和方差缩减技术,提出了一种内存高效的零阶随机方差缩减梯度(MeZO-SVRG)的 LM 微调方法,它在多个任务中都表现出卓越的稳定性和收敛性,且减少了存储占用。
Apr, 2024