拥有 100 万 GPU 小时，应该如何选择训练语言模型？

EMNLPOct, 2022

拥有 100 万 GPU 小时，应该如何选择训练语言模型？

What Language Model to Train if You Have One Million GPU Hours?

Teven Le Scao, Thomas Wang, Daniel Hesslow, Lucile Saulnier, Stas Bekman...

TL;DR本研究旨在构建一个大型语言模型 BLOOM，对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究，并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。

Abstract

The crystallization of modeling methods around the transformer architecture has been a boon for practitioners. Simple, well-motivated architectural variations can transfer across tasks and scale, increasing the impact of modeling research. However, with the emergence of state-of-the-ar

transformer architecture large language models zero-shot generalization pre-training corpora multilingual model

发现论文，激发创造

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

使用单个 GPU 在一天内训练语言模型

本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能，同时提供了一个经过修改的预训练流程，并提供证据表明即使在有限的计算环境下，性能也与大型计算环境下观察到的缩放定律密切相关。

Dec, 2022

针对大规模多语言 ASR 的端到端模型扩展

本篇研究旨在研究 15 种任务下，训练语言模型的容量瓶颈，并发现通过增加模型参数，添加深度，以及使用大型编码器等方法可以增加训练效率。

Apr, 2021

从英语到外语：迁移预训练语言模型

本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法，使用单个 GPU，一天内可以获得一种新的外语 BERT 基础模型，并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。

Feb, 2020

使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一种大规模生成式语言模型

本文描述了用于训练 Megatron-Turing NLG 530B （MT-NLG）的基础架构和 3D 并行方法，重点介绍了训练过程、训练语料库的设计和数据精选技术，以及各种评估结果和新特性。作者展示了 MT-NLG 在几个自然语言处理基准测试中具有更优秀的零点、一点和少点学习精度，并且取得了新的最先进结果。

Jan, 2022

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

研究大型多语言语言模型的翻译性能：以 BLOOM 为例

本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现，结果显示少量样本学习模式下，该模型在许多语言对中表现良好，但 0-shot 性能受到过度生成和错误语言生成的影响。

Mar, 2023

优化基于 Transformer 的机器翻译模型，以便在单个 GPU 训练中达到最佳性能：超参数淘汰研究

通过对超参数的删减实验，发现模型参数不一定越多越有效，进而揭示了通过精确调整超参数在单个 GPU 上训练复杂模型的关键技巧，从而为机器翻译的可用性和经济性提供了重要见解。

Aug, 2023