使用单个 GPU 在一天内训练语言模型

Dec, 2022

使用单个 GPU 在一天内训练语言模型

Cramming: Training a Language Model on a Single GPU in One Day

Jonas Geiping, Tom Goldstein

TL;DR本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能，同时提供了一个经过修改的预训练流程，并提供证据表明即使在有限的计算环境下，性能也与大型计算环境下观察到的缩放定律密切相关。

Abstract

Recent trends in language modeling have focused on increasing performance through scaling, and have resulted in an environment where training language models is out of reach for most researchers and practitioners

language modeling transformer-based models gpu training scaling down performance

发现论文，激发创造

拥有 100 万 GPU 小时，应该如何选择训练语言模型？

本研究旨在构建一个大型语言模型 BLOOM，对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究，并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。

Oct, 2022

在一天内在单机上训练一个大型视频模型

通过优化 IO、CPU 和 GPU 计算，本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道，与之前的工作相比，我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。

Sep, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

从英语到外语：迁移预训练语言模型

本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法，使用单个 GPU，一天内可以获得一种新的外语 BERT 基础模型，并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。

Feb, 2020

神经机器翻译的扩展

通过采用降低精度和大批量培训，结合仔细的调整和实施，可以在单个 8-GPU 计算机上加速训练近 5 倍，从而达到在大型基准数据集上达到最先进性能的状态，如 WMT'14 英德翻译等任务。

Jun, 2018

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

优化基于 Transformer 的机器翻译模型，以便在单个 GPU 训练中达到最佳性能：超参数淘汰研究

通过对超参数的删减实验，发现模型参数不一定越多越有效，进而揭示了通过精确调整超参数在单个 GPU 上训练复杂模型的关键技巧，从而为机器翻译的可用性和经济性提供了重要见解。

Aug, 2023

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

如何用学术预算训练 BERT

本文描述了一种通过软件优化、设计选择和超参数调整，在低端深度学习服务器上预训练掩蔽语言模型的方法，并证明了产生的模型在 GLUE 任务中具有与 BERT-base 相当的竞争力，预训练成本仅为原始费用的一小部分。

Apr, 2021

单个 GPU 实现数据效率：小型语言模型转移方法探索

本文探讨了在小语言模型中，模型规模大小，多任务学习，指令调整，fine-tuning 和域内学习等对模型性能影响，其中通用 MTL 和域内 MTL 能够分别提升模型相对 31% 和 37.6% 的效果，并且与先前的研究结果不同，指令调整仅提供了小幅度的 2% 性能改进。

Oct, 2022