利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

Nov, 2023

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models

Jan Finkbeiner, Thomas Gmeinder, Mark Pupilli, Alexander Titterton, Emre Neftci

TL;DR通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Abstract

Current ai training infrastructure is dominated by single instruction multiple data (SIMD) and systolic array architectures, such as Graphics Processing Units (GPUs) and Tensor Processing Units (TPUs), that excel at accelerating parallel workloads and dense vector matrix multiplication

ai training infrastructure simd architectures sparsity recurrent model training mimd architecture

发现论文，激发创造

分析基于真实处理内存系统的分布式优化算法

大规模数据集上的机器学习（ML）训练是一项非常昂贵和耗时的工作负载，处理器中心化体系结构（例如，CPU，GPU）常用于现代 ML 训练工作负载，但受制于数据移动瓶颈，即不断访问训练数据集。因此，处理器中心化系统面临着性能下降和高能耗的问题。内存中处理（PIM）是缓解数据移动瓶颈的有希望的解决方案，将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明，现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案，当 PIM 硬件本地支持操作和数据类型时。此外，仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言，当节点数增加时，与常见观点相反，现代 PIM 架构不能实现线性扩展。为了促进未来的研究，我们打算开源我们的完整代码库。

Apr, 2024

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

机器学习训练在实际处理内存系统上的实验评估

研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案，考察 PIM 架构对机器学习算法训练的潜力，通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比，表现出更高效的处理机制和更好的加速效果。

Jul, 2022

基于算法、架构和数据流共同设计的高效稀疏 DNN 训练

提出了一个计算高效的 N:M 稀疏深度神经网络（DNN）训练方案，包括算法、架构和数据流共同设计，并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练，在几种 DNN 模型和数据集上的实验结果表明，在 2:8 稀疏比率下，该方案相对于密集训练可实现平均 1.75 倍的加速，准确度损失平均仅为 0.56%，在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍，能效提高了 1.36~3.58 倍。

Sep, 2023

面向深度学习工作负载的数据流感知 PIM 启用多核架构

设计原则和挑战研究了用于深度学习的数据流感知、处理器内存结合的多核平台。

Mar, 2024

迁移机器学习模型至智能处理单元的洞察

通过探索 Intelligence Processing Units (IPUs) 的优化技巧以及将专用模型迁移到 IPU 平台，本研究表明 IPU 是机器学习、材料科学和电池研究领域中 GPU 的一种可行加速器替代方案。在多次充放电循环中，本研究还展示了 IPU 上进行有效电导率预测任务时使用卷积神经网络 (CNN) 架构模型与 GPU 执行相当的性能，并通过基准测试发现 Graphcore 的 Bow IPU 相较于 Colossus IPU 有显著的性能改善。

Apr, 2024

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在 CPU 上

本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于 Transformer-based 语言模型，我们的稀疏加速器在处理各种 GEMM 形状时，比现有的稀疏库快一个数量级，在 Xeon 上具有高效的性能。

Jun, 2023

内存模拟计算架构与张量处理单元的异构集成

提出了一种新颖的异构混合信号混合精度架构，将 IMAC 单元与边缘 TPU 集成以提高移动 CNN 性能，借助 TPUs 卷积层和 IMAC 电路密集层的优势，设计了一种统一的混合精度训练算法，模拟结果表明，TPU-IMAC 构型在各种 CNN 模型中实现了高达 2.59 倍的性能提升和 88％的内存减少，同时保持了可比较的准确性。该架构对于边缘计算和移动设备中的实时处理等需要能源效率和高性能的应用具有潜在的影响。

Apr, 2023

在实际的内存处理系统上加速图神经网络

图神经网络（GNNs）是分析图结构数据的新兴机器学习模型。本研究提出了一个高效的 ML 框架 PyGim，通过在实际的 PIM 系统中加速 GNNs，解决了 GNNs 中内存密集型核心所面临的数据移动瓶颈。通过提供混合 GNN 执行，我们证明 PyGim 在比特尔至强 CPU 上的性能平均提升了 3.04 倍，并实现了比 CPU 和 GPU 系统更高的资源利用率。该研究为软件、系统和硬件设计者提供了有价值的建议，并将开源 PyGim 以推动 PIM 系统在 GNNs 中的广泛应用。

Feb, 2024

基于大规模开关式忆阻器的计算即存储模块用于深度神经网络训练

研究了一种使用模拟计算模块和数字系统的混合精度训练方案，在实验中采用了 memristor-based 计算存储内存模块，成功实现了针对大型深度神经网络的有效训练，并评估了模型的抗硬件变化特性。

May, 2023