基于混合GPU压缩加速大语言模型训练

Sep, 2024

基于混合GPU压缩加速大语言模型训练

Accelerating Large Language Model Training with Hybrid GPU-based Compression

Lang Xu, Quentin Anthony, Qinghua Zhou, Nawras Alnaasan, Radha R. Gulhane...

TL;DR本研究解决了大型语言模型训练中通信开销的问题。通过与GPU压缩库共同设计的MPI库，提出了一种混合压缩策略，以减少在分布式训练中的信息传输错误，并提高训练效率。结果表明，该方法使每个GPU的TFLOPS提高了17.3%，样本处理速度提高了12.7%。

Abstract

Data Parallelism (DP), Tensor Parallelism (TP), and Pipeline Parallelism (PP) are the three strategies widely adopted to enable fast and efficient Large Language Model (LLM) training. However, these approaches rely on data-intensive communication routines to collect, aggregate, and re-

发现论文，激发创造

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的transformer模型的简便、高效的内部层模型并行方法，并且通过在WikiText103，LAMBADA和RACE数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

使用Megatron-LM在GPU集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了10％的吞吐量，是现有方法的可比内存占用率。在3072个GPU上完成了1万亿参数模型的训练，每个GPU的吞吐量达到了理论峰值的52％。

Apr, 2021

使用单个GPU在一天内训练语言模型

本文研究了使用单个消费级GPU只需训练一天的用遮蔽语言模型完全从头开始训练的transformer-based语言模型的下游性能，同时提供了一个经过修改的预训练流程，并提供证据表明即使在有限的计算环境下，性能也与大型计算环境下观察到的缩放定律密切相关。

Dec, 2022

SqueezeLLM：紧密稀疏量化

通过引入SqueezeLLM后训练的量化框架，该框架不仅实现了高达3位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

大规模分布式模型训练的高效并行化布局

通过对大型语言模型的多种训练配置进行全面的消融研究，我们总结出几个关键建议，以实现最高效的训练，例如，我们发现使用微批量大小为1通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性，并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果，尤其是在训练13B模型时，模型FLOPs利用率达到了70.5%。

Nov, 2023

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

针对大型语言模型的前沿分布式训练优化

通过实验结果和超参数调整，我们提出了一套用于大型语言模型的分布式训练策略。

Dec, 2023

Pipette: 大规模自动细粒度语言模型训练配置器用于真实世界集群

Pipette是一个针对现实世界集群的自动细粒度LLM训练配置器，通过设计更好的性能模型、内存估计器和细粒度的个别GPU分配，Pipette在满足内存约束条件下实现更快的配置，并且相比现有技术提供了显著的加速。

May, 2024

基于学习的子空间投影器的通用GPU上超参微调LLM的实用卸载

通过学习稀疏压缩器和新颖的分层通信调度，我们提出了一个离线框架 LSP_Offload，能够在普通硬件上以接近原生速度进行大型语言模型的微调，从而在受限的内存条件下显著提高微调吞吐量并缩短微调时间。

Jun, 2024

基于GPU张量核心的大型语言模型高效任意精度加速

该研究解决了大型语言模型在高效推理过程中面临的挑战，尤其是在超低比特量化和内存管理方面的限制。提出了一种新颖的双极INT数据格式和任意精度矩阵乘法方案，显著提升了GPU张量核心的利用率，并通过高效的内存管理系统实现了最大化的执行速度。实验结果表明，该方法在矩阵乘法上可达到高达13倍的加速，并在大型语言模型中实现了高达6.7倍的推理加速。

Sep, 2024