更大小批量的内存高效训练大型语言模型
本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中,不同批量大小对测试性能和泛化性能的影响,并指出使用小批量训练可以提供更稳定和可靠的结果。
Apr, 2018
本研究证明在低资源训练中,相比于GPU内存允许的大批量训练,小批量训练在较短时间内可以得到更高的分数,并说这是由于在训练过程中梯度更好的正则化所导致的。
Mar, 2022
提出了一种名为 LOw-Memory Optimization(LOMO)的新优化器,该优化器将梯度计算和参数更新融合为一步,可以在单台机器上通过充分利用记忆方案使大型语言模型(LLMs)进行全参数微调的训练过程中降低内存使用,并成功地在一台装有 8 个RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。
Jun, 2023
本研究旨在提出一种采用零阶优化的方法,以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销,从而实现内存更高效的模型微调。
Feb, 2024
自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角,通过与基于梯度的模型优化器进行类比,设计了改进的LLM-based提示优化器的策略。实验结果表明GPO具有有效性和高效性,并分别相对基准方法在Big-Bench Hard和MMLU上带来了多达56.8%和55.3%的额外改进。
Feb, 2024
通过提出Gradient Low-Rank Projection (GaLore)的训练策略,本研究在大规模语言模型的预训练过程中实现全参数学习,并以更高的内存效率减少了高达65.5%的优化器状态内存使用,同时在多项任务上保持了效率和性能,展示出在具有24GB内存的消费级GPU上(例如NVIDIA RTX 4090)进行7B模型的预训练的可行性。
Mar, 2024
本文提出了一种Memory-effIcieNt结构化剪枝方法(MINI-LLM),通过整合大小、激活和梯度等多个指标,利用特征图敏感性进行剪枝,从而有效地降低了GPU内存的占用,并在多个下游任务上展现了优异的性能。
Jul, 2024
MEMO是一种用于大规模语言模型(LLM)训练的新型框架,通过细粒度的激活内存管理实现高效训练,包括依层次的激活重计算与交换机制以及内存复用优化,实现了极高的模型浮点计算的利用率,以及降低内存碎片化与通信开销,从而在仅使用8个A800 GPU上,在处理1百万序列长度的7B LLM时达到了52.30%的MFU。
Jul, 2024
本研究解决了现有模型压缩技术主要聚焦于权重优化而忽视架构探索的问题。我们提出了一种无训练的架构搜索框架,能够识别保留原始大型语言模型基本优势的最优子网络,并实现推理加速。研究结果表明,与现有的最先进结构剪枝方法相比,我们的方法在标准基准测试中表现更为优越,同时能够直接减少GPU内存使用并加快推理速度。
Sep, 2024
本研究解决了低秩训练限制导致的大规模语言模型(LLMs)性能不足的问题。我们提出了一种新的训练框架Fira,通过基于范数的缩放方法保持低秩约束的同时实现全秩训练,从而提高性能。实验结果表明,Fira在预训练和微调过程中优于现有的LoRA和GaLore方法,且性能与全秩训练相当或更佳。
Oct, 2024