用于大规模深度学习广告系统的分布式层次 GPU 参数服务器

Mar, 2020

用于大规模深度学习广告系统的分布式层次 GPU 参数服务器

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Weijie Zhao, Deping Xie, Ronglai Jia, Yulei Qian, Ruiquan Ding...

TL;DR论文介绍了一种利用分布式 GPU 层次结构参数服务器进行深度学习广告系统的方法，旨在解决海量数据、大规模深度网络训练领域所面临的空间和性能上的挑战。通过实验证明，该系统在训练速度和性价比等方面都比 MPI-cluster 架构更加优越。

Abstract

neural networks of ads systems usually take input from multiple resources, e.g., query-ad relevance, ad features and user portraits. These inputs are encoded into one-hot or multi-hot binary features, with typically only a tiny fraction of nonzero feature values per example.

neural networks online advertising distributed gpu hierarchical parameter server deep learning massive scale

发现论文，激发创造

大规模深度推荐模型的 GPU 专用推理参数服务器

本文介绍了 HugeCTR Hierarchical Parameter Server（HPS），这是一种结合了高性能 GPU 嵌入式缓存和分层存储架构的行业领先的分布式推荐推断框架，可将端到端推理延迟显着降低至 5-62 倍，并可以通过多 GPU 并发部署显著提高推理 QPS。

Oct, 2022

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

分布式机器学习基于异构边缘系统

提出 ADSP 参数同步方案，解决了分布式机器学习中参数同步与边缘设备的异构性问题，通过策略性地决定每个工作节点提交模型更新的时间点，不仅确保了全局模型收敛，而且加快了收敛速度。

Nov, 2019

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

一种高效的分布式深度学习系统用于自动语音识别

通过异步分布式 SGD 训练 ADPSGD 算法实现自动语音识别（ASR）系统可处理更大的 batch size，进而大规模训练 SWB-2000 数据集，提高了模型准确率并刷新了文献报道以往最快的 ASR 训练系统。

Jul, 2019

ZeRO-Infinity：打破 GPU 内存壁垒，满足极端规模的深度学习

该论文提出了一项新的异构系统技术，称为 ZeRO-Infinity，它可以在有限的资源上实现前所未有的模型规模，同时实现出色的训练吞吐量和可扩展性，并且无需重构模型代码，是一个可以应用于当前 GPU 集群的技术。

Apr, 2021

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

现代 GPU 的层次化资源划分：一种强化学习方法

基于强化学习和资源分区方法的研究，针对现代 GPU 上的层次化资源分区进行了探讨，以 NVIDIA GPU 上的 MPS 和 MIG 为例，通过综合优化分区设置和作业选择，实现了同时设置作业并发性、分区和协调组选择，获得了 1.87 倍的最大吞吐量提升。

May, 2024