利用蝴蝶分解减少 IPU 的内存需求
本文介绍了新型、大规模并行平台 —— 智能处理单元(IPU)的架构和性能,并使用受其目的所驱动的微基准测试来剖析 IPU 的性能行为,同时研究了 IPU 的内存组织和性能、芯片内部和外部互连提供的延迟和带宽、计算能力以及与理论极限相比的实际性能表现,旨在为读者提供简单的心理模型,以便根据涉及的计算和通信步骤来预测应用程序在 IPU 上的性能。
Dec, 2019
通过探索 Intelligence Processing Units (IPUs) 的优化技巧以及将专用模型迁移到 IPU 平台,本研究表明 IPU 是机器学习、材料科学和电池研究领域中 GPU 的一种可行加速器替代方案。在多次充放电循环中,本研究还展示了 IPU 上进行有效电导率预测任务时使用卷积神经网络 (CNN) 架构模型与 GPU 执行相当的性能,并通过基准测试发现 Graphcore 的 Bow IPU 相较于 Colossus IPU 有显著的性能改善。
Apr, 2024
通过一项全面的基准测试,本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状,旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50%。同时,引入一种新的 CUDA 核心可以优化这些内存操作,最多可以使计算速度提高 1.4 倍,降低能耗 0.85 倍。我们还展示了新核心的广泛意义,以其加速神经网络的推断。
May, 2024
通过在分布式本地内存上使用稀疏和循环模型训练方法,我们观察到与 GPU 相比,使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益,且在训练收敛或最终模型性能上没有明显减慢。
Nov, 2023
本文研究了基于 Graphcore 智能处理单元(IPU)的图处理器,证明了用高斯置信传播算法可以极快地解决经典计算机视觉问题中的束调整问题,并表明图处理的真正优势在于处理表示空间 AI 问题的一般动态因子图的灵活本地优化。
Mar, 2020
提出了一种新颖的异构混合信号混合精度架构,将 IMAC 单元与边缘 TPU 集成以提高移动 CNN 性能,借助 TPUs 卷积层和 IMAC 电路密集层的优势,设计了一种统一的混合精度训练算法,模拟结果表明,TPU-IMAC 构型在各种 CNN 模型中实现了高达 2.59 倍的性能提升和 88%的内存减少,同时保持了可比较的准确性。该架构对于边缘计算和移动设备中的实时处理等需要能源效率和高性能的应用具有潜在的影响。
Apr, 2023
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍,TOPS/Watt 比 GPU 提高近 70 倍,比 CPU 提高 200 倍。
Apr, 2017
提出了一种名为自由流水线快速内积(FFIP)的新算法及其硬件架构,该算法改进了 Winograd 在 1968 年提出的一种未被充分探索的快速内积算法(FIP)。与 Winograd 最小滤波算法不同,FIP 适用于所有可分解为矩阵乘法的机器学习模型层,包括全连接、卷积、循环和注意力 / 变换层。我们首次在机器学习加速器中实现了 FIP,提出了 FFIP 算法和通用架构,从而从本质上提高了 FIP 的时钟频率和吞吐量。此外,我们对 FIP 和 FFIP 算法及架构进行了机器学习特定的优化。我们发现,在相同类型的计算平台上,FFIP 对于非稀疏机器学习模型的 8 到 16 位定点输入实现了比同类先前解决方案更高的吞吐量和计算效率。
Nov, 2023
本研究对商业 AI / ML 加速器进行了初步评估和比较,通过对常见 DNN 运算符和其他 AI / ML 工作负载的一系列基准评估,揭示了数据流架构相对传统处理器设计的优势和性能权衡,并为研究原型的设计和性能期望提供了有价值的参考,从而促进为不断发展的 AI / ML 应用领域量身定制的下一代硬件加速器的发展。
Nov, 2023
提出了一种端到端的图像压缩框架,通过学习特定于领域的特征来实现比标准 HEVC / JPEG 压缩技术更高的压缩比,同时保持下游任务(例如识别)的准确性,该框架适用于嵌入式设备和云计算领域,并在面部识别领域的数据集上获得较好表现。
Apr, 2022