在一天内在单机上训练一个大型视频模型
本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能,同时提供了一个经过修改的预训练流程,并提供证据表明即使在有限的计算环境下,性能也与大型计算环境下观察到的缩放定律密切相关。
Dec, 2022
通过采用降低精度和大批量培训,结合仔细的调整和实施,可以在单个 8-GPU 计算机上加速训练近 5 倍,从而达到在大型基准数据集上达到最先进性能的状态,如 WMT'14 英德翻译等任务。
Jun, 2018
我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”,训练使用增强数据集并配合交叉验证,最终排名第 5。
Jun, 2017
在本文中,我们介绍了 Video-Infinity,它是一个分布式推理管道,能够跨多个 GPU 进行并行处理,实现长形式视频的生成。具体来说,我们提出了两个一致的机制:片段并行性和双范围注意力。这两种机制共同协作以分发工作负载并实现快速生成长视频。在 8 个 Nvidia 6000 Ada GPU(48G)的设置下,我们的方法能够以每分钟大约 5 分钟的速度生成高达 2300 帧的视频,使长视频的生成速度比以前的方法快 100 倍。
Jun, 2024
基于真实世界的大规模模型训练和数据中心规模基础设施,我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟,在这项工作中,我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件,我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。
Oct, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
本文介绍了一类因果视频理解模型,旨在通过最大化吞吐量、最小化延迟和减少时钟周期的数量来提高视频处理的效率,利用操作流水线和多速率时钟的优势,每个时间步对每个帧执行最少量的计算 (例如仅四个卷积层),以产生输出,通过将这些操作以流水线的方式进行深度并行计算,应用于现有图像架构并分析在两个视频任务上的行为:动作识别和人体关键点定位。结果表明,在几乎不损失性能的情况下,可以实现显著的并行性和速度提升。
Jun, 2018
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
通过使用多重网格方法和变量小批量形状,以在保持准确性的同时加速视频模型的训练速度,我们提出了一种通用和强健的网格时间表,该时间表可用于不同的模型,数据集和训练设置。
Dec, 2019
提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统,其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等,这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。
Jul, 2018