利用蝴蝶分解减少 IPU 的内存需求

Sep, 2023

利用蝴蝶分解减少 IPU 的内存需求

Reducing Memory Requirements for the IPU using Butterfly Factorizations

S.-Kazem Shekofteh, Christian Alles, Holger Fröning

TL;DR高性能计算从硬件平台的不断改进中受益，在保持合理功耗的同时提供更多的处理能力。智能处理单元（IPU）是一种新型的大规模并行处理器，旨在加速具有大量处理核心和高速内存组件的并行计算。本文研究了如何在 IPU 上实现蝶形结构，并研究了它们与 GPU 的行为和性能的比较。实验结果表明，这些方法可以提供 98.5% 的压缩比，减少对内存的极度需求。在蝶形和像素化蝶形方面，IPU 的实现可以获得 1.3 倍和 1.6 倍的性能改进。我们还在 CIFAR10 等实际数据集上实现了 1.62 倍的训练时间加速。

Abstract

high performance computing (HPC) benefits from different improvements during last decades, specially in terms of hardware platforms to provide more processing power while maintaining the power consumption at a reasonable level. The →

high performance computing intelligence processing unit ipu implementation butterfly factorizations model size reduction

发现论文，激发创造

通过微基准测试解剖 Graphcore IPU 架构

本文介绍了新型、大规模并行平台 —— 智能处理单元（IPU）的架构和性能，并使用受其目的所驱动的微基准测试来剖析 IPU 的性能行为，同时研究了 IPU 的内存组织和性能、芯片内部和外部互连提供的延迟和带宽、计算能力以及与理论极限相比的实际性能表现，旨在为读者提供简单的心理模型，以便根据涉及的计算和通信步骤来预测应用程序在 IPU 上的性能。

Dec, 2019

迁移机器学习模型至智能处理单元的洞察

通过探索 Intelligence Processing Units (IPUs) 的优化技巧以及将专用模型迁移到 IPU 平台，本研究表明 IPU 是机器学习、材料科学和电池研究领域中 GPU 的一种可行加速器替代方案。在多次充放电循环中，本研究还展示了 IPU 上进行有效电导率预测任务时使用卷积神经网络 (CNN) 架构模型与 GPU 执行相当的性能，并通过基准测试发现 Graphcore 的 Bow IPU 相较于 Colossus IPU 有显著的性能改善。

Apr, 2024

提升推理速度：蝶式稀疏矩阵乘法的高效 GPU 内存管理

通过一项全面的基准测试，本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状，旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50％。同时，引入一种新的 CUDA 核心可以优化这些内存操作，最多可以使计算速度提高 1.4 倍，降低能耗 0.85 倍。我们还展示了新核心的广泛意义，以其加速神经网络的推断。

May, 2024

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

基于图处理器的束调整

本文研究了基于 Graphcore 智能处理单元（IPU）的图处理器，证明了用高斯置信传播算法可以极快地解决经典计算机视觉问题中的束调整问题，并表明图处理的真正优势在于处理表示空间 AI 问题的一般动态因子图的灵活本地优化。

Mar, 2020

内存模拟计算架构与张量处理单元的异构集成

提出了一种新颖的异构混合信号混合精度架构，将 IMAC 单元与边缘 TPU 集成以提高移动 CNN 性能，借助 TPUs 卷积层和 IMAC 电路密集层的优势，设计了一种统一的混合精度训练算法，模拟结果表明，TPU-IMAC 构型在各种 CNN 模型中实现了高达 2.59 倍的性能提升和 88％的内存减少，同时保持了可比较的准确性。该架构对于边缘计算和移动设备中的实时处理等需要能源效率和高性能的应用具有潜在的影响。

Apr, 2023

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍，TOPS/Watt 比 GPU 提高近 70 倍，比 CPU 提高 200 倍。

Apr, 2017

深度神经网络加速器的快速内积算法和架构

提出了一种名为自由流水线快速内积（FFIP）的新算法及其硬件架构，该算法改进了 Winograd 在 1968 年提出的一种未被充分探索的快速内积算法（FIP）。与 Winograd 最小滤波算法不同，FIP 适用于所有可分解为矩阵乘法的机器学习模型层，包括全连接、卷积、循环和注意力 / 变换层。我们首次在机器学习加速器中实现了 FIP，提出了 FFIP 算法和通用架构，从而从本质上提高了 FIP 的时钟频率和吞吐量。此外，我们对 FIP 和 FFIP 算法及架构进行了机器学习特定的优化。我们发现，在相同类型的计算平台上，FFIP 对于非稀疏机器学习模型的 8 到 16 位定点输入实现了比同类先前解决方案更高的吞吐量和计算效率。

Nov, 2023

评估新兴 AI/ML 加速器：IPU，RDU 和 NVIDIA/AMD GPU

本研究对商业 AI / ML 加速器进行了初步评估和比较，通过对常见 DNN 运算符和其他 AI / ML 工作负载的一系列基准评估，揭示了数据流架构相对传统处理器设计的优势和性能权衡，并为研究原型的设计和性能期望提供了有价值的参考，从而促进为不断发展的 AI / ML 应用领域量身定制的下一代硬件加速器的发展。

Nov, 2023

用于学习图像压缩的身份保持损失

提出了一种端到端的图像压缩框架，通过学习特定于领域的特征来实现比标准 HEVC / JPEG 压缩技术更高的压缩比，同时保持下游任务（例如识别）的准确性，该框架适用于嵌入式设备和云计算领域，并在面部识别领域的数据集上获得较好表现。

Apr, 2022