分析基于真实处理内存系统的分布式优化算法

Apr, 2024

分析基于真实处理内存系统的分布式优化算法

Analysis of Distributed Optimization Algorithms on a Real Processing-In-Memory System

Steve Rhyner, Haocong Luo, Juan Gómez-Luna, Mohammad Sadrosadati, Jiawei Jiang...

TL;DR大规模数据集上的机器学习（ML）训练是一项非常昂贵和耗时的工作负载，处理器中心化体系结构（例如，CPU，GPU）常用于现代 ML 训练工作负载，但受制于数据移动瓶颈，即不断访问训练数据集。因此，处理器中心化系统面临着性能下降和高能耗的问题。内存中处理（PIM）是缓解数据移动瓶颈的有希望的解决方案，将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明，现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案，当 PIM 硬件本地支持操作和数据类型时。此外，仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言，当节点数增加时，与常见观点相反，现代 PIM 架构不能实现线性扩展。为了促进未来的研究，我们打算开源我们的完整代码库。

Abstract

machine learning (ML) training on large-scale datasets is a very expensive and time-consuming workload. processor-centric architectures (e.g., CPU, GPU) commonly used for modern ML training workloads are limited

machine learning processor-centric architectures processing-in-memory distributed optimization algorithms pim hardware

发现论文，激发创造

机器学习训练在实际处理内存系统上的实验评估

研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案，考察 PIM 架构对机器学习算法训练的潜力，通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比，表现出更高效的处理机制和更好的加速效果。

Jul, 2022

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

面向深度学习工作负载的数据流感知 PIM 启用多核架构

设计原则和挑战研究了用于深度学习的数据流感知、处理器内存结合的多核平台。

Mar, 2024

在实际的内存处理系统上加速图神经网络

图神经网络（GNNs）是分析图结构数据的新兴机器学习模型。本研究提出了一个高效的 ML 框架 PyGim，通过在实际的 PIM 系统中加速 GNNs，解决了 GNNs 中内存密集型核心所面临的数据移动瓶颈。通过提供混合 GNN 执行，我们证明 PyGim 在比特尔至强 CPU 上的性能平均提升了 3.04 倍，并实现了比 CPU 和 GPU 系统更高的资源利用率。该研究为软件、系统和硬件设计者提供了有价值的建议，并将开源 PyGim 以推动 PIM 系统在 GNNs 中的广泛应用。

Feb, 2024

NicePIM: 用于三维堆叠 DRAM 的处理内存 DNN 加速器的设计空间探索

本文提出了 NicePIM，一种针对 DRAM-PIM 加速器的硬件架构和 DNN 映射的高效优化方案，包括 PIM-Tuner、PIM-Mapper 和 Data-Scheduler 三个关键组件，实验结果表明，与基准方法相比，NicePIM 可以有效地优化 DRAM-PIM 系统的硬件配置，并生成具有较低时延和能耗成本的高质量 DNN 映射方案。

May, 2023

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

PIM-QAT：面向处理内存系统（PIM）的神经网络量化

本研究提出了一种针对处理内存 (PIM) 量化的方法 (PIM-QAT)，通过分析训练动态，引入反向传播和前向传播重缩放技术，提出批归一化 (BN) 校准和调整精度训练等技术，有效地解决了硬件约束引起的非理想因素，实现了 PIM 系统中具有可比性的推理精度。

Sep, 2022

EPIM: 基于 Epitome 的高效处理内存加速器

为了解决处理内存加速器上大规模神经网络的受限芯片内存容量所带来的挑战，本文介绍了 Epitome，这是一个轻量级神经算子，为处理内存加速器（EPIM）设计了高效的卷积操作符。实验结果表明，我们的 3 位量化 EPIM-ResNet50 在 ImageNet 上达到了 71.59% 的 top-1 准确率，将交叉栏面积降低了 30.65 倍，超过了 PIM 的最先进修剪方法。

Nov, 2023

TIMELY: 将 PIM 加速器中的数据移动和接口推向本地和时域

本文提出一种名为 TIMELY 的创新性处理内存加速器，通过采用模拟数据局部性、时域接口和仅一次输入读取的映射方法，最大限度地提高了能效，并在能效、计算密度和吞吐量上优于已有的 R$^2$PIM 加速器。

May, 2020

DDC-PIM: 将 SRAM 内存中的处理与内存功效合并以提高数据处理能力的高效算法 / 架构共同设计

提出了一种名为 DDC-PIM 的算法 / 架构协同设计方法，通过最大化每个 SRAM 单元的数据容量，有效地使等效数据容量翻倍，相较于 PIM 基准实现，DDC-PIM 在 MobileNetV2 上达到 2.84 倍加速，在 EfficientNet-B0 上达到 2.69 倍加速，无明显准确度损失，并且与最先进的基于 SRAM 的 PIM 宏相比，DDC-PIM 在重量密度和面积效率上分别达到 8.41 倍和 2.75 倍的改善。

Oct, 2023