面向深度学习工作负载的数据流感知 PIM 启用多核架构

Mar, 2024

面向深度学习工作负载的数据流感知 PIM 启用多核架构

Dataflow-Aware PIM-Enabled Manycore Architecture for Deep Learning Workloads

Harsh Sharma, Gaurav Narang, Janardhan Rao Doppa, Umit Ogras, Partha Pratim Pande

TL;DR设计原则和挑战研究了用于深度学习的数据流感知、处理器内存结合的多核平台。

Abstract

processing-in-memory (PIM) has emerged as an enabler for the energy-efficient and high-performance acceleration of deep learning (DL) workloads. Resistive random-access memory (ReRAM) is one of the most promising technologies to implement PIM. However, as the complexity of

processing-in-memory resistive random-access memory deep convolutional neural networks manycore architecture dataflow-aware pim-enabled platform

发现论文，激发创造

分析基于真实处理内存系统的分布式优化算法

大规模数据集上的机器学习（ML）训练是一项非常昂贵和耗时的工作负载，处理器中心化体系结构（例如，CPU，GPU）常用于现代 ML 训练工作负载，但受制于数据移动瓶颈，即不断访问训练数据集。因此，处理器中心化系统面临着性能下降和高能耗的问题。内存中处理（PIM）是缓解数据移动瓶颈的有希望的解决方案，将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明，现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案，当 PIM 硬件本地支持操作和数据类型时。此外，仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言，当节点数增加时，与常见观点相反，现代 PIM 架构不能实现线性扩展。为了促进未来的研究，我们打算开源我们的完整代码库。

Apr, 2024

TIMELY: 将 PIM 加速器中的数据移动和接口推向本地和时域

本文提出一种名为 TIMELY 的创新性处理内存加速器，通过采用模拟数据局部性、时域接口和仅一次输入读取的映射方法，最大限度地提高了能效，并在能效、计算密度和吞吐量上优于已有的 R$^2$PIM 加速器。

May, 2020

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

DDC-PIM: 将 SRAM 内存中的处理与内存功效合并以提高数据处理能力的高效算法 / 架构共同设计

提出了一种名为 DDC-PIM 的算法 / 架构协同设计方法，通过最大化每个 SRAM 单元的数据容量，有效地使等效数据容量翻倍，相较于 PIM 基准实现，DDC-PIM 在 MobileNetV2 上达到 2.84 倍加速，在 EfficientNet-B0 上达到 2.69 倍加速，无明显准确度损失，并且与最先进的基于 SRAM 的 PIM 宏相比，DDC-PIM 在重量密度和面积效率上分别达到 8.41 倍和 2.75 倍的改善。

Oct, 2023

NicePIM: 用于三维堆叠 DRAM 的处理内存 DNN 加速器的设计空间探索

本文提出了 NicePIM，一种针对 DRAM-PIM 加速器的硬件架构和 DNN 映射的高效优化方案，包括 PIM-Tuner、PIM-Mapper 和 Data-Scheduler 三个关键组件，实验结果表明，与基准方法相比，NicePIM 可以有效地优化 DRAM-PIM 系统的硬件配置，并生成具有较低时延和能耗成本的高质量 DNN 映射方案。

May, 2023

基于 ReRAM 的 PIM 加速器上的故障感知的 GNN 训练

本文提出了一种故障感知的框架 FARe，用于在存在故障情况下减轻训练图神经网络的影响，该框架在准确性和时间开销方面优于现有方法。实验结果表明，相比无故障情况下的对比系统，FARe 框架可以在故障的 ReRAM 硬件上只增加约 1% 的时间开销，将 GNN 测试准确率提高 47.6%。

Jan, 2024

机器学习训练在实际处理内存系统上的实验评估

研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案，考察 PIM 架构对机器学习算法训练的潜力，通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比，表现出更高效的处理机制和更好的加速效果。

Jul, 2022

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐

利用实际世界的处理内存 (PIM) 硬件 UPMEM DPU，提出 UpDLRM，以增加内存带宽并减少推荐延迟。通过利用 DPU 内存的并行特性，可以为嵌入式查找中的大量不规则内存访问提供高聚合带宽，从而在推理时提供巨大潜力来降低延迟。通过研究嵌入式表分区问题，充分利用 DPU 内存带宽，实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集进行评估，UpDLRM 在 DLRM 中实现了比仅 CPU 和 CPU-GPU 混合对应物更低的推理时间。

Jun, 2024

在实际的内存处理系统上加速图神经网络

图神经网络（GNNs）是分析图结构数据的新兴机器学习模型。本研究提出了一个高效的 ML 框架 PyGim，通过在实际的 PIM 系统中加速 GNNs，解决了 GNNs 中内存密集型核心所面临的数据移动瓶颈。通过提供混合 GNN 执行，我们证明 PyGim 在比特尔至强 CPU 上的性能平均提升了 3.04 倍，并实现了比 CPU 和 GPU 系统更高的资源利用率。该研究为软件、系统和硬件设计者提供了有价值的建议，并将开源 PyGim 以推动 PIM 系统在 GNNs 中的广泛应用。

Feb, 2024