ScaleFreeCTR:基于 MixCache 的 CTR 模型分布式训练系统与大规模嵌入表
本文提出了一种基于 GPU 的软件缓存方法来动态管理 DLRM 的 embedding table,通过利用目标数据集 id 的频率统计信息,在 GPU 和 CPU 内存空间之间进行管理,以此来使得在 GPU 上训练 DLRM 更为实用。同时,该方法也支持多 GPU 并行训练,通过实验证明,只在 GPU 上保留 1.5% 的 embedding 参数就能保障训练速度。
Aug, 2022
通过研究推荐数据的使用方式和特征,本文提出了一种称为 FAE 框架的热嵌入感知数据布局,利用有限的 GPU 内存存储高访问嵌入,以减少 CPU 到 GPU 的数据传输并加速执行,从而将推荐模型的训练时间降低了 2.3 倍。
Mar, 2021
本文介绍了一种名为 DeepLight 的框架,用于加速 CTR 预测,该框架通过显式地搜索浅层组件中的信息交互、裁剪深度神经网络(DNN)组件中的冗余层和参数以及提高嵌入层稀疏性的方式,成功地将模型推断速度提高了 46 倍,在不降低预测准确性的情况下,有望在广告投放生产中成功部署复杂的基于嵌入的神经网络。
Feb, 2020
该研究介绍了一种新的嵌入式表(embedding table)缓存内存架构及其优化,该架构主要针对推荐系统中的大规模模型训练,通过低精度训练大部分嵌入式表行数据,实现与标准训练精度下相同准确率的情况下,INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%,最终实现达到 3 倍的减存储效果,并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。
Oct, 2020
该研究提出了一种名为 HET 的系统框架,旨在解决嵌入式模型大规模训练的可伸缩性问题,通过使用嵌入式缓存和新的一致性模型,可以实现具有细粒度一致性保证的高效通信,相较于现有技术,HET 能够减少高达 88% 的嵌入式通信,并实现高达 20.68 倍的性能加速。
Dec, 2021
通过优化平台内存层次结构,设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目,优化内存容量,提高训练效率,从而减少功耗和训练成本。
Apr, 2023
Merlin HugeCTR 是一种用于 CTR 估算的开源 GPU 加速集成框架,支持训练和推断优化,利用模型并行嵌入和数据并行神经网络进行规模化的模型训练,并使用高性能 GPU 嵌入式缓存和分层存储架构相结合,以实现低延迟的在线推荐任务。支持使用 NVIDIA Triton 服务器框架部署,可大幅减少端到端推荐模型推断的延迟。
Oct, 2022
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
本文介绍了 HugeCTR Hierarchical Parameter Server(HPS),这是一种结合了高性能 GPU 嵌入式缓存和分层存储架构的行业领先的分布式推荐推断框架,可将端到端推理延迟显着降低至 5-62 倍,并可以通过多 GPU 并发部署显著提高推理 QPS。
Oct, 2022