从零开始训练个性化推荐系统：前瞻而非后退

May, 2022

从零开始训练个性化推荐系统：前瞻而非后退

Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards

Youngeun Kwon, Minsoo Rhu

TL;DR本文提出了一种利用推荐系统训练独特属性设计嵌入式缓存的 ScratchPipe 架构，旨在解决推荐系统训练中由于嵌入层占用过多内存而导致性能低下的问题。

Abstract

personalized recommendation models (RecSys) are one of the most popular machine learning workload serviced by hyperscalers. A critical challenge of training RecSys is its high memory capacity requirements, reachi

personalized recommendation machine learning embedding layers cpu-gpu design scratchpipe architecture

发现论文，激发创造

面向大型推荐系统嵌入的频率感知软件缓存

本文提出了一种基于 GPU 的软件缓存方法来动态管理 DLRM 的 embedding table，通过利用目标数据集 id 的频率统计信息，在 GPU 和 CPU 内存空间之间进行管理，以此来使得在 GPU 上训练 DLRM 更为实用。同时，该方法也支持多 GPU 并行训练，通过实验证明，只在 GPU 上保留 1.5% 的 embedding 参数就能保障训练速度。

Aug, 2022

Mem-Rec: 使用替代表示的内存高效推荐系统

本研究提出了 MEM-REC，一种基于布隆过滤器和哈希方法的分类特征编码技术，以用较小的嵌入表来取代传统的大型嵌入表，可以在商业推荐模型中提供高质量的个性化推荐，并提高嵌入延迟。

May, 2023

利用热门选择加速推荐系统训练

通过研究推荐数据的使用方式和特征，本文提出了一种称为 FAE 框架的热嵌入感知数据布局，利用有限的 GPU 内存存储高访问嵌入，以减少 CPU 到 GPU 的数据传输并加速执行，从而将推荐模型的训练时间降低了 2.3 倍。

Mar, 2021

面向推荐系统训练的异构加速管线

Hotline 是一种数据感知和模型感知调度 pipeline，它通过实现一种动态的硬件加速器和馈送到 GPU 的方法，通过 GPU 加速减少训练时间，相比于现有的 CPU-GPU 混合模式，Hotline 平均训练时间降低了 3 倍，并且将整体训练吞吐量增加到每小时 35.7 个 epochs。

Apr, 2022

使用缓存的混合精度嵌入

该研究介绍了一种新的嵌入式表（embedding table）缓存内存架构及其优化，该架构主要针对推荐系统中的大规模模型训练，通过低精度训练大部分嵌入式表行数据，实现与标准训练精度下相同准确率的情况下，INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%，最终实现达到 3 倍的减存储效果，并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。

Oct, 2020

学习弹性嵌入用于定制设备推荐算法

本研究提出了一种基于弹性嵌入的轻量级推荐算法，它允许在不重新训练的情况下自动适应任意设备特定的内存限制，并通过多样性驱动的规则化和性能估计法来获得更出色的性能表现。

Jun, 2021

深度学习推荐模型规模训练效率探究

本文探讨使用 GPU 进行推荐模型训练时所遇到的种种挑战，如模型架构参数、存储过大的嵌入表等造成的 GPU 性能与效率问题，同时介绍了新型 GPU 服务器设计 Zion 所带来的优势。

Nov, 2020

ScaleFreeCTR：基于 MixCache 的 CTR 模型分布式训练系统与大规模嵌入表

本文提出了 ScaleFreeCTR—— 一种基于 MixCache 的 CTR 模型分布式训练系统，旨在解决采用模型并行的推荐分布式训练平台中的性能瓶颈问题，并通过全面性能和消融实验表明了其有效性和高效性。

Apr, 2021

RecShard：基于统计特征的内存优化技术，适用于工业级神经推荐

该研究提出了一种基于训练数据分布和模型特征的优化的 RecShard 方法，适用于嵌套的内存架构中对深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs) 中的 EMB 内存表进行分区和布局，能够有效地提高训练吞吐量。

Jan, 2022

ElasticRec：一种基于微服务的模型服务架构，实现对推荐模型的弹性资源扩缩容

ElasticRec 是一种模型服务架构，为推荐系统提供资源弹性性和高内存效率。相较于现有推荐系统预测服务系统，ElasticRec 通过微服务的软件架构和基于效用的资源分配实现了平均内存分配大小的 3.3 倍减少、内存效用的 8.1 倍增加，从而降低了 1.6 倍的部署成本。

Jun, 2024