通过双层自适应损失压缩加速深度学习推荐模型训练

Jul, 2024

通过双层自适应损失压缩加速深度学习推荐模型训练

Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression

Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu...

TL;DRDLRM模型是一种先进的推荐系统模型，由于其大尺寸，需要使用多个设备/GPUs进行高效训练。为了减少训练时间中通信的瓶颈，我们引入了一种利用有误差限制的有损压缩方法，以降低通信数据大小并加速DLRM训练。我们开发了一种新颖的有误差限制的有损压缩算法，并通过对嵌入数据特征的深入分析来实现高压缩比。此外，我们引入了一个双层自适应策略，涵盖了表格和迭代两个方面的误差限制调整，以平衡压缩带来的好处和对准确性的潜在影响。我们还针对GPU上的PyTorch张量优化了我们的压缩器，最小化了压缩开销。评估结果表明，我们的方法实现了1.38倍的训练加速，几乎不影响准确性。

Abstract

dlrm is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of →

发现论文，激发创造

面向个性化推荐系统的深度学习推荐模型

该论文提供了一个使用 PyTorch 和 Caffe2 框架实现的深度学习推荐模型，该模型使用模型并行处理嵌入层以缓解内存限制，并利用数据并行扩展计算。与现有模型相比，该模型在 Big Basin AI 平台上的表现得到了完善的特性和良好的性能，并可作为未来算法实验和系统设计的基准。

May, 2019

分布式深度学习压缩通信的理论分析与实际实现之间的差异

通过实验和理论分析，本文表明在深度神经网络的分布式数据并行训练中，面向单个层的压缩比面向整个模型的压缩方式更好，但实验也显示，具体训练模型和压缩率都可能导致实际收敛率的变化。因此，本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。

Nov, 2019

序列推荐系统通用网络压缩框架

本文提出了一种压缩的序列推荐框架CpRec，采用块状自适应分解和层间参数共享等技术来压缩神经网络，在真实世界的序列推荐数据集中表现出了较高的准确率和效率。

Apr, 2020

PowerGossip: 分散式深度學習中实用的低秩通信压缩

介绍了一种使用低秩线性压缩器直接压缩相邻工作器之间的模型差异的简单算法，在分布式机器学习训练中具有实际应用价值，无需额外的超参数，收敛速度比之前的方法快，并且在一系列深度学习基准测试中的表现与经过调优的最先进压缩算法相当。

Aug, 2020

TT-Rec: 深度学习推荐模型的张量列车压缩

本文研究了深度学习推荐模型中嵌入表的内存容量问题并提出了Tensor Train分解的解决方案。通过优化成熟度更低的TT-Rec及其核心部件TT-EmbeddingBag，它在Kaggle和Terabyte数据集上均实现了117倍和112倍的模型大小压缩，并且没有任何准确性或训练时间开销。

Jan, 2021

利用热门选择加速推荐系统训练

通过研究推荐数据的使用方式和特征，本文提出了一种称为FAE框架的热嵌入感知数据布局，利用有限的GPU内存存储高访问嵌入，以减少CPU到GPU的数据传输并加速执行，从而将推荐模型的训练时间降低了2.3倍。

Mar, 2021

深度学习推荐模型快速可扩展训练的软件硬件协同设计

本文介绍了使用PyTorch和Zion platform的高性能可扩展软件堆栈的SW/HW共同设计方案，用于高效训练大规模DLRMs，实现了可分层分区和高性能的数据通信等多项优化，从而在之前系统的基础上将训练时间提速了40倍。

Apr, 2021

面向大型推荐系统嵌入的频率感知软件缓存

本文提出了一种基于GPU的软件缓存方法来动态管理DLRM的embedding table，通过利用目标数据集id的频率统计信息，在GPU和CPU内存空间之间进行管理，以此来使得在GPU上训练DLRM更为实用。同时，该方法也支持多GPU并行训练，通过实验证明，只在GPU上保留1.5%的embedding参数就能保障训练速度。

Aug, 2022

MTrainS：使用异构内存提高 DLRM 训练效率

通过优化平台内存层次结构，设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目，优化内存容量，提高训练效率，从而减少功耗和训练成本。

Apr, 2023

UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐

利用实际世界的处理内存 (PIM) 硬件 UPMEM DPU，提出 UpDLRM，以增加内存带宽并减少推荐延迟。通过利用 DPU 内存的并行特性，可以为嵌入式查找中的大量不规则内存访问提供高聚合带宽，从而在推理时提供巨大潜力来降低延迟。通过研究嵌入式表分区问题，充分利用 DPU 内存带宽，实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集进行评估，UpDLRM 在 DLRM 中实现了比仅 CPU 和 CPU-GPU 混合对应物更低的推理时间。

Jun, 2024