使用处理内存中的哈希嵌入加速技术
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
利用实际世界的处理内存 (PIM) 硬件 UPMEM DPU,提出 UpDLRM,以增加内存带宽并减少推荐延迟。通过利用 DPU 内存的并行特性,可以为嵌入式查找中的大量不规则内存访问提供高聚合带宽,从而在推理时提供巨大潜力来降低延迟。通过研究嵌入式表分区问题,充分利用 DPU 内存带宽,实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集进行评估,UpDLRM 在 DLRM 中实现了比仅 CPU 和 CPU-GPU 混合对应物更低的推理时间。
Jun, 2024
该研究介绍了一种新的嵌入式表(embedding table)缓存内存架构及其优化,该架构主要针对推荐系统中的大规模模型训练,通过低精度训练大部分嵌入式表行数据,实现与标准训练精度下相同准确率的情况下,INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%,最终实现达到 3 倍的减存储效果,并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。
Oct, 2020
通过使用混合维度嵌入层架构,将嵌入向量的维度与其查询频率相匹配,可以显著降低内存使用,并同时提高机器学习性能,作者在 Criteo Kaggle 数据集上进行了实验验证。
Sep, 2019
本文提出了 NicePIM,一种针对 DRAM-PIM 加速器的硬件架构和 DNN 映射的高效优化方案,包括 PIM-Tuner、PIM-Mapper 和 Data-Scheduler 三个关键组件,实验结果表明,与基准方法相比,NicePIM 可以有效地优化 DRAM-PIM 系统的硬件配置,并生成具有较低时延和能耗成本的高质量 DNN 映射方案。
May, 2023
大规模数据集上的机器学习(ML)训练是一项非常昂贵和耗时的工作负载,处理器中心化体系结构(例如,CPU,GPU)常用于现代 ML 训练工作负载,但受制于数据移动瓶颈,即不断访问训练数据集。因此,处理器中心化系统面临着性能下降和高能耗的问题。内存中处理(PIM)是缓解数据移动瓶颈的有希望的解决方案,将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明,现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案,当 PIM 硬件本地支持操作和数据类型时。此外,仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言,当节点数增加时,与常见观点相反,现代 PIM 架构不能实现线性扩展。为了促进未来的研究,我们打算开源我们的完整代码库。
Apr, 2024
通过优化平台内存层次结构,设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目,优化内存容量,提高训练效率,从而减少功耗和训练成本。
Apr, 2023
本文提出了一种基于高带宽内存和处理器内存的柔性解决方案,名为 NeuroCluster,可用于深度卷积神经网络的可扩展和节能执行,并实现了最好的能源效率,平均性能为 240 GFLOPS,能源效率为 22.5 GFLOPS/W。
Jan, 2017
本文介绍一种基于 AutoML 的框架(AutoDim),该框架可以以数据驱动的方式自动为不同的特征字段选择维度,并在基准数据集上进行了广泛实验来验证其有效性。
Jun, 2020