用于大规模深度学习广告系统的分布式层次 GPU 参数服务器
本文介绍了 HugeCTR Hierarchical Parameter Server(HPS),这是一种结合了高性能 GPU 嵌入式缓存和分层存储架构的行业领先的分布式推荐推断框架,可将端到端推理延迟显着降低至 5-62 倍,并可以通过多 GPU 并发部署显著提高推理 QPS。
Oct, 2022
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017
提出 ADSP 参数同步方案,解决了分布式机器学习中参数同步与边缘设备的异构性问题,通过策略性地决定每个工作节点提交模型更新的时间点,不仅确保了全局模型收敛,而且加快了收敛速度。
Nov, 2019
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
通过异步分布式 SGD 训练 ADPSGD 算法实现自动语音识别(ASR)系统可处理更大的 batch size,进而大规模训练 SWB-2000 数据集, 提高了模型准确率并刷新了文献报道以往最快的 ASR 训练系统。
Jul, 2019
该论文提出了一项新的异构系统技术,称为 ZeRO-Infinity,它可以在有限的资源上实现前所未有的模型规模,同时实现出色的训练吞吐量和可扩展性,并且无需重构模型代码,是一个可以应用于当前 GPU 集群的技术。
Apr, 2021
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
基于强化学习和资源分区方法的研究,针对现代 GPU 上的层次化资源分区进行了探讨,以 NVIDIA GPU 上的 MPS 和 MIG 为例,通过综合优化分区设置和作业选择,实现了同时设置作业并发性、分区和协调组选择,获得了 1.87 倍的最大吞吐量提升。
May, 2024