使用处理内存中的哈希嵌入加速技术

Feb, 2024

使用处理内存中的哈希嵌入加速技术

HEAM : Hashed Embedding Acceleration using Processing-In-Memory

Youngsuk Kim, Hyuk-Jae Lee, Chae Eun Rhee

TL;DRHEAM 是一种异构内存架构，通过整合 3D 堆叠 DRAM 和 DIMM 来加速个性化推荐系统中的组合嵌入运算，有效减少了银行访问、提高了访问效率，并在总体吞吐量上实现了 6.3 倍的加速和 58.9% 的能源节省。

Abstract

In today's data centers, personalized recommendation systems face challenges such as the need for large memory capacity and high bandwidth, especially when performing →

personalized recommendation systems embedding operations memory capacity memory bandwidth heterogeneous memory architecture

发现论文，激发创造

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐

利用实际世界的处理内存 (PIM) 硬件 UPMEM DPU，提出 UpDLRM，以增加内存带宽并减少推荐延迟。通过利用 DPU 内存的并行特性，可以为嵌入式查找中的大量不规则内存访问提供高聚合带宽，从而在推理时提供巨大潜力来降低延迟。通过研究嵌入式表分区问题，充分利用 DPU 内存带宽，实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集进行评估，UpDLRM 在 DLRM 中实现了比仅 CPU 和 CPU-GPU 混合对应物更低的推理时间。

Jun, 2024

使用缓存的混合精度嵌入

该研究介绍了一种新的嵌入式表（embedding table）缓存内存架构及其优化，该架构主要针对推荐系统中的大规模模型训练，通过低精度训练大部分嵌入式表行数据，实现与标准训练精度下相同准确率的情况下，INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%，最终实现达到 3 倍的减存储效果，并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。

Oct, 2020

应用于内存高效推荐系统的混合维度嵌入

通过使用混合维度嵌入层架构，将嵌入向量的维度与其查询频率相匹配，可以显著降低内存使用，并同时提高机器学习性能，作者在 Criteo Kaggle 数据集上进行了实验验证。

Sep, 2019

NicePIM: 用于三维堆叠 DRAM 的处理内存 DNN 加速器的设计空间探索

本文提出了 NicePIM，一种针对 DRAM-PIM 加速器的硬件架构和 DNN 映射的高效优化方案，包括 PIM-Tuner、PIM-Mapper 和 Data-Scheduler 三个关键组件，实验结果表明，与基准方法相比，NicePIM 可以有效地优化 DRAM-PIM 系统的硬件配置，并生成具有较低时延和能耗成本的高质量 DNN 映射方案。

May, 2023

面向深度学习工作负载的数据流感知 PIM 启用多核架构

设计原则和挑战研究了用于深度学习的数据流感知、处理器内存结合的多核平台。

Mar, 2024

分析基于真实处理内存系统的分布式优化算法

大规模数据集上的机器学习（ML）训练是一项非常昂贵和耗时的工作负载，处理器中心化体系结构（例如，CPU，GPU）常用于现代 ML 训练工作负载，但受制于数据移动瓶颈，即不断访问训练数据集。因此，处理器中心化系统面临着性能下降和高能耗的问题。内存中处理（PIM）是缓解数据移动瓶颈的有希望的解决方案，将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明，现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案，当 PIM 硬件本地支持操作和数据类型时。此外，仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言，当节点数增加时，与常见观点相反，现代 PIM 架构不能实现线性扩展。为了促进未来的研究，我们打算开源我们的完整代码库。

Apr, 2024

MTrainS：使用异构内存提高 DLRM 训练效率

通过优化平台内存层次结构，设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目，优化内存容量，提高训练效率，从而减少功耗和训练成本。

Apr, 2023

智能存储方块实现可扩展节能的深度学习 Neurostream

本文提出了一种基于高带宽内存和处理器内存的柔性解决方案，名为 NeuroCluster，可用于深度卷积神经网络的可扩展和节能执行，并实现了最好的能源效率，平均性能为 240 GFLOPS，能源效率为 22.5 GFLOPS/W。

Jan, 2017

为推荐设计的内存高效嵌入

本文介绍一种基于 AutoML 的框架（AutoDim），该框架可以以数据驱动的方式自动为不同的特征字段选择维度，并在基准数据集上进行了广泛实验来验证其有效性。

Jun, 2020