探索在 Google TPUs 上进行 ML 训练的并发限制

Nov, 2020

探索在 Google TPUs 上进行 ML 训练的并发限制

Exploring the limits of Concurrency in ML Training on Google TPUs

Sameer Kumar, James Bradbury, Cliff Young, Yu Emma Wang, Anselm Levskaya...

TL;DR本文提出了一些技术来在 Google TPU Multipod 上扩展 ML 模型，讨论了模型并行处理，解决数据并行处理中批处理大小的扩展限制，以及一些性能优化方法，并用 TensorFlow 和 JAX 框架进行了演示，同时给出了 MLPerf-v0.7 竞赛结果，获得了四个 MLPerf 模型的最快训练时间记录。

Abstract

Recent results in language understanding using neural networks have required training hardware of unprecedentedscale, with thousands of chips cooperating on a single training run. This paper presents techniques t

neural networks training hardware ml models google tpu multipod performance results

发现论文，激发创造

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

使用 JAX pjit 和 TPUv4 的可扩展语言模型训练

本文探讨了开发可扩展培训框架所涉及的挑战和设计决策，并介绍了采用新的软件和硬件解决方案带来的效率改进的定量分析。

Apr, 2022

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍，TOPS/Watt 比 GPU 提高近 70 倍，比 CPU 提高 200 倍。

Apr, 2017

Mesh-TensorFlow：用于超级计算机的深度学习

本文介绍了 Mesh-TensorFlow，一种用于实现一般分布式张量计算的语言，以代替传统的数据并行策略，从而支持更大的模型训练和更高的效率。通过应用 Mesh-TensorFlow 实现了一个数据并行、模型并行的 Transformer 模型，最终在 WMT'14 英法翻译任务和亿级语言建模基准测试上实现了最优性能。

Nov, 2018

MAD Max 超越单节点：在分布式系统上加速大规模机器学习模型

基于真实世界的大规模模型训练和数据中心规模基础设施，我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟，在这项工作中，我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件，我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。

Oct, 2023

多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个 GPU 平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于 Transformer 的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

TPU v4: 具有嵌入式硬件支持的机器学习可重构超级计算机

谷歌推出新的 TPU v4 超级计算机，采用光路电路交换和 SparseCores 等技术，提高了机器学习模型的性能和能源效率。

Apr, 2023

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

探索 AI 应用中的 TPUs

本研究论文主要探讨了谷歌开发的专门用于深度学习的 Tensor Processing Units（TPUs）在边缘计算中的性能表现，研究了 TPUs 的设计、总体架构、编译技术和支持框架，并对云端和边缘 TPU 的性能进行了比较分析，结果显示 TPUs 在云端和边缘计算中都能显著提高性能。此外，文章还提到了在边缘 TPU 部署更多架构的需求，以及在边缘计算中进行更稳健比较的需求。

Sep, 2023