规模化和轻松化的深度学习

MMMar, 2016

Deep Learning At Scale and At Ease

Wei Wang, Gang Chen, Haibo Chen, Tien Tuan Anh Dinh, Jinyang Gao...

TL;DRSINGA 是一个可扩展、易用的分布式深度学习平台，具有基于深度学习模型的通用层抽象的直观编程模型和具体优化技术，可在 GPU 和 CPU 上运行，在实际的多媒体应用中的应用表现出了良好的可用性和可扩展性。

Abstract

Recently, deep learning techniques have enjoyed success in various multimedia applications, such as image classification and multi-modal data analysis. Large →

deep learning multimedia large models distributed training singa

发现论文，激发创造

大规模深度学习优化：综述

本文概述了在大规模深度学习中如何优化模型的准确性和效率，讨论了优化中使用的算法、大批量训练中出现的泛化差距问题，并回顾了最新的解决通信负担和减少内存占用的策略。

Nov, 2021

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

高效通信的大规模分布式深度学习综述

这篇文章调查了 2018 年至 2023 年期间关于算法和技术的文献，旨在实现大规模分布式深度学习中的高效通信，包括算法、框架和基础设施。具体而言，我们首先介绍了在大规模分布式训练中模型同步和通信数据压缩方面的高效算法。接下来，我们介绍了与分布式训练和推理中资源分配和任务调度相关的高效策略。此后，我们介绍了现代通信基础设施中使用的最新技术，重点研究了大规模和异构环境下通信开销的影响。最后，我们通过对大规模语言模型的分布式训练进行案例研究，展示了如何在实际情况中应用这些技术。这篇文章旨在为研究人员提供对大规模分布式深度学习的现状全面的理解，并揭示在这一领域中通信高效解决方案的有希望的未来研究方向。

Apr, 2024

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

IBM 深度学习服务

本文介绍了 IBM 的深度学习服务（DLaaS）的软件架构细节，该服务提供深度学习库，通过分布和编排层，资源供应层实现在云中可伸缩和弹性的管理，利用深度学习以及云计算相结合的业务模式，将传统机器学习方法向深度学习推进。

Sep, 2017

Facebook 数据中心中的深度学习培训：大规模上下文系统设计

本文介绍了 Facebook 在机器学习中使用的大规模推荐模型 (DLRMs)，探讨了在模型规模和复杂性不断增加时，如何高效地扩展训练。为了解决这个问题，Facebook 设计了 Zion 平台，作为下一代大内存训练平台，由 CPU 和加速器组成。

Mar, 2020

使用同步随机梯度下降进行分布式深度学习

设计并实现了一种分布式多节点同步的 SGD 算法，通过在不改变超参数、压缩数据或更改算法行为的情况下进行详细的分析，实现了 CNN 在数百个节点上的扩展，并展示了记录的训练吞吐量，同时通过在基于以太网的 AWS 集群上训练，使深度学习更加平民化，在 16 个节点上展示了约 14 倍的扩展性。

Feb, 2016

规模机器学习

本文介绍了一个自动化的机器学习平台，用于在数字广告技术环境中构建数千个预测用户行为的模型，并实现连续的优化广告活动，涉及数十亿的广告展示量和数亿的用户，以及多个不同的性能目标。

Feb, 2014

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

为大规模深度学习系统辩护：智能算法胜于硬件加速

本研究提出了一种基于 CPU 的深度学习引擎 SLIDE，采用智能随机算法、多核并行和工作负载优化，通过针对大规模完全连接网络的训练，相对于优化的 Tensorflow（TF）在最佳可用 GPU 上进行训练，在任何给定准确性水平下，使用仅仅一个 44 核 CPU，SLIDE 的训练速度比 TF 快 3.5 倍（1 小时与 3.5 小时相比）。在相同的 CPU 硬件上，SLIDE 比 TF 快 10 倍以上。

Mar, 2019