深度学习推荐模型规模训练效率探究

Nov, 2020

深度学习推荐模型规模训练效率探究

Understanding Training Efficiency of Deep Learning Recommendation Models at Scale

Bilge Acun, Matthew Murphy, Xiaodong Wang, Jade Nie, Carole-Jean Wu...

TL;DR本文探讨使用 GPU 进行推荐模型训练时所遇到的种种挑战，如模型架构参数、存储过大的嵌入表等造成的 GPU 性能与效率问题，同时介绍了新型 GPU 服务器设计 Zion 所带来的优势。

Abstract

The use of gpus has proliferated for machine learning workflows and is now considered mainstream for many deep learning models. Meanwhile, when training state-of-the-art personal →

gpus machine learning recommendation models performance efficiency

发现论文，激发创造

利用热门选择加速推荐系统训练

通过研究推荐数据的使用方式和特征，本文提出了一种称为 FAE 框架的热嵌入感知数据布局，利用有限的 GPU 内存存储高访问嵌入，以减少 CPU 到 GPU 的数据传输并加速执行，从而将推荐模型的训练时间降低了 2.3 倍。

Mar, 2021

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022

Facebook 数据中心中的深度学习培训：大规模上下文系统设计

本文介绍了 Facebook 在机器学习中使用的大规模推荐模型 (DLRMs)，探讨了在模型规模和复杂性不断增加时，如何高效地扩展训练。为了解决这个问题，Facebook 设计了 Zion 平台，作为下一代大内存训练平台，由 CPU 和加速器组成。

Mar, 2020

与硬件协同设计模型架构的案例

通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响，我们提供了一套指南，以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状，与具有类似参数但形状未经优化的模型相比，高效模型形状的吞吐量提高了多达 39％，同时保持准确性。

Jan, 2024

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。

Jun, 2022

在 GPU 上优化深度卷积神经网络的内存效率

本文探讨了对于卷积神经网络的内存效率的优化，以及其对性能的影响，并提出了数据布局及内存访问模式方面的优化策略。实验证明，这些策略不仅对于单个层面有效，对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。

Oct, 2016

深度学习负载下 GPU 故障的预测

该研究旨在通过使用机器学习模型来预测 GPU 故障，以改善在深度学习任务中可能导致的严重后果，并提出多种技术来提高预测精度，最终将预测精度从 46.3％提高到 84.0％。

Jan, 2022

多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个 GPU 平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于 Transformer 的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

高效深度学习：关于使深度学习模型更小、更快、更好的调查

介绍了深度学习效率问题和五个核心领域，包括建模技术、基础设施和硬件，并提出实验指南和代码，为实践者优化模型培训和部署提供支持。这是第一个详尽的调查，涵盖了从建模技术到硬件支持的模型效率领域，帮助实践者实现改进并装备他们以进行进一步的研究和实验。

Jun, 2021

大规模深度学习模型的高效训练：文献综述

对于深度学习模型的训练加速技术的综述，主要从数据中心、模型中心、优化中心、预算训练和系统中心五个角度入手，详细介绍了各个方面减小计算复杂度的方法，其中包括数据样本的正则化、模型参数的减少和优化目标的设计等。

Apr, 2023