TRANSOM: 一个高效的容错系统用于训练 LLMs

Oct, 2023

TRANSOM: 一个高效的容错系统用于训练 LLMs

TRANSOM: An Efficient Fault-Tolerant System for Training LLMs

Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen...

TL;DR该研究提出了一种名为 TRANSOM 的新型容错大模型训练系统，包括 TOL 自动容错与恢复机制、TEE 多维度度量自动异常检测系统和 TCE 异步访问容错与恢复技术，初步结果表明 TRANSOM 显著提高了集群上大规模语言模型训练的效率。

Abstract

large language models (LLMs) represented by chartGPT have achieved profound applications and breakthroughs in various fields. This demonstrates that LLMs with hundreds of billions or trillions of parameters will continue to transform our daily lives. However, →

large language models training fault-tolerant transom efficiency

发现论文，激发创造

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

MegaScale：将大规模语言模型训练扩展至超过 10,000 个 GPU

我们介绍了 MegaScale 的设计、实现和工程经验，它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法，通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战，并分享了我们在确保系统稳定性方面的操作经验。

Feb, 2024

HLAT: 在 AWS Trainium 上高质量大型语言模型的预训练

本论文展示了使用 AWS Trainium 和 Neuron Distributed Training Library 成功预训练了 HLAT 等具有高性能和高效性的最新大型语言模型。

Apr, 2024

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

针对大型语言模型的前沿分布式训练优化

通过实验结果和超参数调整，我们提出了一套用于大型语言模型的分布式训练策略。

Dec, 2023

ProTrain: 基于记忆感知技术的高效 LLM 训练

ProTrain 通过协调内存、计算和 IO，采用分块模型状态管理和块状激活管理，在不改变训练算法的情况下，通过内存感知的运行时分析器智能平衡内存使用和性能，相较于其他最佳训练系统，ProTrain 提高了 1.43 倍至 2.71 倍的训练吞吐量。

Jun, 2024

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

GLaM: 使用专家混合方法高效扩展语言模型

本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Dec, 2021

Holmes: 面向集群间具有异构 NIC 环境的分布式训练

Holmes 是一个专门为 LLMs 设计的训练框架，通过巧妙构建数据和模型并行策略，在异构 NIC 环境下实现了可扩展性，并在大多数情况下达到接近 RDMA 网络性能的学习效率，同时与其他主流 LLM 框架无缝集成。

Dec, 2023