Optimus: 通过气泡利用加速大规模多模态LLM训练

Aug, 2024

Optimus: 通过气泡利用加速大规模多模态LLM训练

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin...

TL;DR本研究解决了现有多模态大语言模型（MLLM）训练效率低下的问题，主要由于GPU的气泡现象和复杂的数据依赖性。论文提出了一种新的分布式MLLM训练系统Optimus，通过优化编码器计算调度，显著减少训练时间，实验结果显示，Optimus能使MLLM训练速度提升20.5%-21.3%。

Abstract

Multimodal Large Language Models (MLLMs) have extended the success of Large Language Models (LLMs) to multiple data types, such as image,

发现论文，激发创造

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的transformer模型的简便、高效的内部层模型并行方法，并且通过在WikiText103，LAMBADA和RACE数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一种大规模生成式语言模型

本文描述了用于训练 Megatron-Turing NLG 530B （MT-NLG）的基础架构和 3D 并行方法，重点介绍了训练过程、训练语料库的设计和数据精选技术，以及各种评估结果和新特性。作者展示了 MT-NLG 在几个自然语言处理基准测试中具有更优秀的零点、一点和少点学习精度，并且取得了新的最先进结果。

Jan, 2022

DeepSpeed Ulysses：极长序列Transformer模型训练的系统优化

DeepSpeed-Ulysses是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses在4倍较长的序列长度下比现有方法提供了2.5倍的训练速度。

Sep, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

vTrain: 评估成本效益和计算优化的大型语言模型训练的仿真框架

该研究论文介绍了一种基于性能分析的模拟器vTrain，为人工智能从业者提供了一个快速而准确的软件框架，用于确定高效且经济有效的大型语言模型（LLM）训练系统配置。

Nov, 2023

LLM-PQ：利用多阶段感知分割和自适应量化为异构集群提供LLM

LLM-PQ是一个提倡自适应模型量化和阶段感知模型分区的系统，旨在通过在异构GPU集群上提高LLM的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策，LLM-PQ大大提高了推理吞吐量，同时满足用户指定的模型质量目标。对11个不同集群上的生产推理工作负载进行的大量实验表明，LLM-PQ在推理上实现了高达2.88倍（平均2.26倍）的吞吐量改进，显示出较其他最先进方法的巨大优势。

Mar, 2024

Helix: 基于异构GPU上的最大流进行大型语言模型的分布式服务

介绍了一种名为Helix的分布式系统，用于在异构GPU集群上提供高吞吐量和低延迟的大语言模型（LLM）服务。通过将LLMs的推理计算以最大流问题形式表示为有向加权图，使用混合整数线性规划（MILP）算法来发现高度优化的策略，从而联合优化模型放置和请求调度，在几个异构集群设置上的评估结果表明，与现有的最佳方法相比，Helix将服务吞吐量提高了2.7倍，并将提示和解码延迟分别降低了2.8倍和1.3倍。

Jun, 2024

使用完全流水线分布式变换器训练超长上下文语言模型

该研究解决了在有限GPU资源和内存下，训练具备超长上下文能力的大型语言模型（LLMs）面临的高成本和复杂性问题。作者提出了一种新的完全流水线分布式变换器（FPDT）方法，该方法能够高效训练长上下文LLMs，并在相同硬件上实现序列长度的16倍增长。该方法在多个LLM模型上显示出卓越的训练效率，潜在地降低了训练成本并提升了可扩展性。

Aug, 2024

LongLLaVA：通过混合架构高效扩展多模态大语言模型至1000幅图像

本研究针对多模态大语言模型（MLLMs）在视频理解、高分辨率图像理解及多模态代理中存在的长上下文能力不足问题，提出了一种新的混合模型架构，结合了Mamba和Transformer模块，并优化了数据构建与训练策略。研究表明，LongLLaVA能够在单个A100 80GB GPU上高效处理近1000幅图像，展现出良好的应用前景。

Sep, 2024

基于混合GPU压缩加速大语言模型训练

本研究解决了大型语言模型训练中通信开销的问题。通过与GPU压缩库共同设计的MPI库，提出了一种混合压缩策略，以减少在分布式训练中的信息传输错误，并提高训练效率。结果表明，该方法使每个GPU的TFLOPS提高了17.3%，样本处理速度提高了12.7%。

Sep, 2024