本文提出了一种基于 GPU 的软件缓存方法来动态管理 DLRM 的 embedding table,通过利用目标数据集 id 的频率统计信息,在 GPU 和 CPU 内存空间之间进行管理,以此来使得在 GPU 上训练 DLRM 更为实用。同时,该方法也支持多 GPU 并行训练,通过实验证明,只在 GPU 上保留 1.5% 的 embedding 参数就能保障训练速度。
Aug, 2022
本研究提出了 MEM-REC,一种基于布隆过滤器和哈希方法的分类特征编码技术,以用较小的嵌入表来取代传统的大型嵌入表,可以在商业推荐模型中提供高质量的个性化推荐,并提高嵌入延迟。
May, 2023
通过研究推荐数据的使用方式和特征,本文提出了一种称为 FAE 框架的热嵌入感知数据布局,利用有限的 GPU 内存存储高访问嵌入,以减少 CPU 到 GPU 的数据传输并加速执行,从而将推荐模型的训练时间降低了 2.3 倍。
Mar, 2021
Hotline 是一种数据感知和模型感知调度 pipeline,它通过实现一种动态的硬件加速器和馈送到 GPU 的方法,通过 GPU 加速减少训练时间,相比于现有的 CPU-GPU 混合模式,Hotline 平均训练时间降低了 3 倍,并且将整体训练吞吐量增加到每小时 35.7 个 epochs。
Apr, 2022
该研究介绍了一种新的嵌入式表(embedding table)缓存内存架构及其优化,该架构主要针对推荐系统中的大规模模型训练,通过低精度训练大部分嵌入式表行数据,实现与标准训练精度下相同准确率的情况下,INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%,最终实现达到 3 倍的减存储效果,并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。
Oct, 2020
本研究提出了一种基于弹性嵌入的轻量级推荐算法,它允许在不重新训练的情况下自动适应任意设备特定的内存限制,并通过多样性驱动的规则化和性能估计法来获得更出色的性能表现。
Jun, 2021
本文探讨使用 GPU 进行推荐模型训练时所遇到的种种挑战,如模型架构参数、存储过大的嵌入表等造成的 GPU 性能与效率问题,同时介绍了新型 GPU 服务器设计 Zion 所带来的优势。
Nov, 2020
本文提出了 ScaleFreeCTR—— 一种基于 MixCache 的 CTR 模型分布式训练系统,旨在解决采用模型并行的推荐分布式训练平台中的性能瓶颈问题,并通过全面性能和消融实验表明了其有效性和高效性。
Apr, 2021
该研究提出了一种基于训练数据分布和模型特征的优化的 RecShard 方法,适用于嵌套的内存架构中对深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs) 中的 EMB 内存表进行分区和布局,能够有效地提高训练吞吐量。
Jan, 2022
ElasticRec 是一种模型服务架构,为推荐系统提供资源弹性性和高内存效率。相较于现有推荐系统预测服务系统,ElasticRec 通过微服务的软件架构和基于效用的资源分配实现了平均内存分配大小的 3.3 倍减少、内存效用的 8.1 倍增加,从而降低了 1.6 倍的部署成本。
Jun, 2024