在一天内在单机上训练一个大型视频模型

Sep, 2023

在一天内在单机上训练一个大型视频模型

Training a Large Video Model on a Single Machine in a Day

Yue Zhao, Philipp Krähenbühl

TL;DR通过优化 IO、CPU 和 GPU 计算，本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道，与之前的工作相比，我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。

Abstract

videos are big, complex to pre-process, and slow to train on. State-of-the-art large-scale video models are trained on clusters of 32 or more gpu

videos large-scale video models training pipeline gpus computation

发现论文，激发创造

使用单个 GPU 在一天内训练语言模型

本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能，同时提供了一个经过修改的预训练流程，并提供证据表明即使在有限的计算环境下，性能也与大型计算环境下观察到的缩放定律密切相关。

Dec, 2022

神经机器翻译的扩展

通过采用降低精度和大批量培训，结合仔细的调整和实施，可以在单个 8-GPU 计算机上加速训练近 5 倍，从而达到在大型基准数据集上达到最先进性能的状态，如 WMT'14 英德翻译等任务。

Jun, 2018

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

视频∞：分布式长视频生成

在本文中，我们介绍了 Video-Infinity，它是一个分布式推理管道，能够跨多个 GPU 进行并行处理，实现长形式视频的生成。具体来说，我们提出了两个一致的机制：片段并行性和双范围注意力。这两种机制共同协作以分发工作负载并实现快速生成长视频。在 8 个 Nvidia 6000 Ada GPU（48G）的设置下，我们的方法能够以每分钟大约 5 分钟的速度生成高达 2300 帧的视频，使长视频的生成速度比以前的方法快 100 倍。

Jun, 2024

MAD Max 超越单节点：在分布式系统上加速大规模机器学习模型

基于真实世界的大规模模型训练和数据中心规模基础设施，我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟，在这项工作中，我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件，我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。

Oct, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

大规模并行视频网络

本文介绍了一类因果视频理解模型，旨在通过最大化吞吐量、最小化延迟和减少时钟周期的数量来提高视频处理的效率，利用操作流水线和多速率时钟的优势，每个时间步对每个帧执行最少量的计算 (例如仅四个卷积层)，以产生输出，通过将这些操作以流水线的方式进行深度并行计算，应用于现有图像架构并分析在两个视频任务上的行为：动作识别和人体关键点定位。结果表明，在几乎不损失性能的情况下，可以实现显著的并行性和速度提升。

Jun, 2018

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

一种用于高效训练视频模型的多重网格方法

通过使用多重网格方法和变量小批量形状，以在保持准确性的同时加速视频模型的训练速度，我们提出了一种通用和强健的网格时间表，该时间表可用于不同的模型，数据集和训练设置。

Dec, 2019

基于混合精度的高可扩展深度学习训练系统：四分钟内训练 Imagenet

提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018