跨弓：使用小批次尺寸在多GPU服务器上扩展深度学习

Jan, 2019

跨弓：使用小批次尺寸在多GPU服务器上扩展深度学习

CROSSBOW: Scaling Deep Learning with Small Batch Sizes on Multi-GPU Servers

Alexandros Koliousis, Pijika Watcharapichat, Matthias Weidlich, Luo Mai, Paolo Costa...

TL;DRCROSSBOW是一种新的单服务器多GPU系统，可让用户自由选择其首选批量大小，同时扩展到多个GPU以实现高硬件效率，而无需牺牲统计效率。

Abstract

deep learning models are trained on servers with many GPUs, and training must scale with the number of GPUs. Systems such as TensorFlow and Caffe2 train models with parallel synchronous stochastic gradient descent

发现论文，激发创造

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

Poseidon: 多机高效 GPU 深度学习系统架构

提出 Poseidon 系统架构用于现有 DL 框架的分布式 GPU 训练，包含三个核心贡献：支持 CPU 和 GPU，改进 GPU 利用和通信平衡的分布式等待无后向算法以及最小化通信开销的结构感知通信协议；在 8 个节点的 GPU 群集上，与最先进的 CPU 分布式系统竞争，获得 22K 数据集上更好的加速比和有竞争力的准确性。

Dec, 2015

Omnivore: 一种用于在CPU和GPU上进行多设备深度学习的优化器

该研究通过标准批处理和数据并行技术，在单个节点环境中将吞吐量提高至少5.5倍，并在多节点环境中研究了异步并行化对训练时间的影响，并提出了一种高效的超参数优化器，以选择资源分配方式以最小化收敛所需的总时间。

Jun, 2016

基于混合精度的高可扩展深度学习训练系统：四分钟内训练Imagenet

提出了一个用于GPU集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大mini-batch size的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案——分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和——将这些优化相结合，在1024芯片TPU v3 Pod上以超过105万张/秒的训练吞吐量，在2.2分钟内将ResNet-50在ImageNet上训练到76.3％的准确度，且没有精度降低。

Nov, 2018

Nimble: 适用于深度学习的轻量级和并行GPU任务调度

本文介绍了一种深度学习执行引擎Nimble，采用ahead-of-time（AoT）调度技术，可以以尽可能小的调度开销运行GPU任务。与PyTorch, TensorRT和TVM相比，Nimble在加速推断和训练方面表现出较好的性能。

Dec, 2020

使用Megatron-LM在GPU集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了10％的吞吐量，是现有方法的可比内存占用率。在3072个GPU上完成了1万亿参数模型的训练，每个GPU的吞吐量达到了理论峰值的52％。

Apr, 2021

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在Intel CPU上优化深度学习模型训练的方法和工具集ProfileDNN以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用ProfileDNN和Intel PyTorch扩展来优化模型训练。

Jun, 2022

Quiver：支持工作负载感知的低延迟、高吞吐量 GNN 服务 GPU 支持

本研究讨论了基于图神经网络(GNN)的推理系统如何结合低延迟和高吞吐量，提出了一个分布式GPU-based GNN服务系统靠工作负载指标预测GNN请求的不规则计算特征并管理GPU的使用，利用概率性采样来提高GPU的采样性能并指导特征聚合。通过与现有的GNN方法（DGL和PyG）的比较，Quiver取得了高达35倍的低延迟和8倍的高吞吐量。

May, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括5个编码解码器LLM（从5.8亿到130亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软DeepSpeed Zero Redundancy Optimizer (ZeRO)阶段。

Oct, 2023