ScaleFreeCTR：基于 MixCache 的 CTR 模型分布式训练系统与大规模嵌入表

Apr, 2021

ScaleFreeCTR：基于 MixCache 的 CTR 模型分布式训练系统与大规模嵌入表

ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table

Huifeng Guo, Wei Guo, Yong Gao, Ruiming Tang, Xiuqiang He...

TL;DR本文提出了 ScaleFreeCTR—— 一种基于 MixCache 的 CTR 模型分布式训练系统，旨在解决采用模型并行的推荐分布式训练平台中的性能瓶颈问题，并通过全面性能和消融实验表明了其有效性和高效性。

Abstract

Because of the superior feature representation ability of deep learning, various deep Click-Through Rate (CTR) models are deployed in the commercial systems by industrial companies. To achieve better performance, it is necessary to train the deep →

ctr models deep learning training data embedding layer distributed training

发现论文，激发创造

面向大型推荐系统嵌入的频率感知软件缓存

本文提出了一种基于 GPU 的软件缓存方法来动态管理 DLRM 的 embedding table，通过利用目标数据集 id 的频率统计信息，在 GPU 和 CPU 内存空间之间进行管理，以此来使得在 GPU 上训练 DLRM 更为实用。同时，该方法也支持多 GPU 并行训练，通过实验证明，只在 GPU 上保留 1.5% 的 embedding 参数就能保障训练速度。

Aug, 2022

利用热门选择加速推荐系统训练

通过研究推荐数据的使用方式和特征，本文提出了一种称为 FAE 框架的热嵌入感知数据布局，利用有限的 GPU 内存存储高访问嵌入，以减少 CPU 到 GPU 的数据传输并加速执行，从而将推荐模型的训练时间降低了 2.3 倍。

Mar, 2021

DeepLight: 基于轻量级深度学习特征交互技术的广告 CTR 加速预测

本文介绍了一种名为 DeepLight 的框架，用于加速 CTR 预测，该框架通过显式地搜索浅层组件中的信息交互、裁剪深度神经网络（DNN）组件中的冗余层和参数以及提高嵌入层稀疏性的方式，成功地将模型推断速度提高了 46 倍，在不降低预测准确性的情况下，有望在广告投放生产中成功部署复杂的基于嵌入的神经网络。

Feb, 2020

使用缓存的混合精度嵌入

该研究介绍了一种新的嵌入式表（embedding table）缓存内存架构及其优化，该架构主要针对推荐系统中的大规模模型训练，通过低精度训练大部分嵌入式表行数据，实现与标准训练精度下相同准确率的情况下，INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%，最终实现达到 3 倍的减存储效果，并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。

Oct, 2020

HET: 利用缓存启用的分布式框架扩展大型嵌入式模型训练

该研究提出了一种名为 HET 的系统框架，旨在解决嵌入式模型大规模训练的可伸缩性问题，通过使用嵌入式缓存和新的一致性模型，可以实现具有细粒度一致性保证的高效通信，相较于现有技术，HET 能够减少高达 88% 的嵌入式通信，并实现高达 20.68 倍的性能加速。

Dec, 2021

MTrainS：使用异构内存提高 DLRM 训练效率

通过优化平台内存层次结构，设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目，优化内存容量，提高训练效率，从而减少功耗和训练成本。

Apr, 2023

Merlin HugeCTR: GPU 加速的推荐系统训练和推断

Merlin HugeCTR 是一种用于 CTR 估算的开源 GPU 加速集成框架，支持训练和推断优化，利用模型并行嵌入和数据并行神经网络进行规模化的模型训练，并使用高性能 GPU 嵌入式缓存和分层存储架构相结合，以实现低延迟的在线推荐任务。支持使用 NVIDIA Triton 服务器框架部署，可大幅减少端到端推荐模型推断的延迟。

Oct, 2022

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

大规模深度推荐模型的 GPU 专用推理参数服务器

本文介绍了 HugeCTR Hierarchical Parameter Server（HPS），这是一种结合了高性能 GPU 嵌入式缓存和分层存储架构的行业领先的分布式推荐推断框架，可将端到端推理延迟显着降低至 5-62 倍，并可以通过多 GPU 并发部署显著提高推理 QPS。

Oct, 2022

用于快速训练点击率预测模型的极限学习机

基于嵌入层增强的 ELM 模型在 CTR 任务中表现出色，同时显著减少训练时间，特别适用于快速训练的情况。

Jun, 2024