深度学习推荐模型规模训练效率探究
通过研究推荐数据的使用方式和特征,本文提出了一种称为 FAE 框架的热嵌入感知数据布局,利用有限的 GPU 内存存储高访问嵌入,以减少 CPU 到 GPU 的数据传输并加速执行,从而将推荐模型的训练时间降低了 2.3 倍。
Mar, 2021
本文介绍了 Facebook 在机器学习中使用的大规模推荐模型 (DLRMs),探讨了在模型规模和复杂性不断增加时,如何高效地扩展训练。为了解决这个问题,Facebook 设计了 Zion 平台,作为下一代大内存训练平台,由 CPU 和加速器组成。
Mar, 2020
通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响,我们提供了一套指南,以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状,与具有类似参数但形状未经优化的模型相比,高效模型形状的吞吐量提高了多达 39%,同时保持准确性。
Jan, 2024
本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法,旨在解决在选择适当硬件时成本和效率之间的权衡问题,并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。
Jun, 2022
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。
Oct, 2016
该研究旨在通过使用机器学习模型来预测 GPU 故障,以改善在深度学习任务中可能导致的严重后果,并提出多种技术来提高预测精度,最终将预测精度从 46.3%提高到 84.0%。
Jan, 2022
通过数据分配感知性能模型和通信集合的数据移动预测,我们可以在多个 GPU 平台上训练机器学习工作负载,并且能够准确预测迭代训练时间,扩展到其他类型的机器学习工作负载,例如基于 Transformer 的自然语言处理模型,并能够生成洞察力,如快速选择最快的嵌入表分片配置。
Apr, 2024
介绍了深度学习效率问题和五个核心领域,包括建模技术、基础设施和硬件,并提出实验指南和代码,为实践者优化模型培训和部署提供支持。这是第一个详尽的调查,涵盖了从建模技术到硬件支持的模型效率领域,帮助实践者实现改进并装备他们以进行进一步的研究和实验。
Jun, 2021
对于深度学习模型的训练加速技术的综述,主要从数据中心、模型中心、优化中心、预算训练和系统中心五个角度入手,详细介绍了各个方面减小计算复杂度的方法,其中包括数据样本的正则化、模型参数的减少和优化目标的设计等。
Apr, 2023