Intel 数据中心 GPU 上的完全融合多层感知器

Mar, 2024

Intel 数据中心 GPU 上的完全融合多层感知器

Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs

Kai Yuan, Christoph Bauinger, Xiangyi Zhang, Pascal Baehr, Matthias Kirchhart...

TL;DRSYCL 实现的多层感知器在 Intel 数据中心 GPU 上表现出较高的性能和算术强度。

Abstract

This paper presents a sycl implementation of multi-layer perceptrons (MLPs), which targets and is optimized for the intel data center gpu

sycl implementation multi-layer perceptrons intel data center gpu arithmetic intensity performance

发现论文，激发创造

英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

本文主要研究稀疏矩阵操作在机器学习应用中的三个方面，分别是稀疏 - 稠密矩阵乘法（SPMM）、采样稠密 - 稠密矩阵乘法（SDDMM）以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD（ESIMD）SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化，与 CUDA 或 SYCL 相比，ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比，并证明了我们稀疏矩阵操作的优越性。

Nov, 2023

迁移机器学习模型至智能处理单元的洞察

通过探索 Intelligence Processing Units (IPUs) 的优化技巧以及将专用模型迁移到 IPU 平台，本研究表明 IPU 是机器学习、材料科学和电池研究领域中 GPU 的一种可行加速器替代方案。在多次充放电循环中，本研究还展示了 IPU 上进行有效电导率预测任务时使用卷积神经网络 (CNN) 架构模型与 GPU 执行相当的性能，并通过基准测试发现 Graphcore 的 Bow IPU 相较于 Colossus IPU 有显著的性能改善。

Apr, 2024

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

MAXIM：用于图像处理的多轴 MLP

本文介绍了一种基于多轴 MLP 的体系结构 MAXIM，该体系结构可用作图像处理任务的高效和灵活的通用视觉骨干。MAXIM 使用 UNet 形状的分层结构，并支持由空间门控 MLP 启用的长程交互，其在多项基准测试中取得了最先进的性能，并且需要的参数和 FLOP 少于竞争模型。

Jan, 2022

Intel nGraph：深度学习的中间表示、编译器和执行器

通过创建一个名为 Intel nGraph 的 C++ 库，支持各种深度学习框架和硬件平台，以实现深度学习性能的优化，包括 TensorFlow、MXNet 和 Intel neon 框架，以及多个硬件平台和编译器优化。

Jan, 2018

15PF 的深度学习：面向科学数据的监督和半监督分类

这篇论文介绍了第一个使用现代高性能计算架构解决科学模式分类问题的 15-PetaFLOP 深度学习系统。通过使用卷积神经网络对高能物理数据和气候数据进行监督和半监督建模，实现了在单个 Cori Phase-II Xeon-Phi 节点上达到 2 TFLOP/s；在使用节点组之间的异步通信和同步节点组的混合策略的情况下，将单模型的训练扩展到 9600 个 Xeon-Phi 节点，达到了 11.73-15.07 PFLOP/s 峰值性能和 11.41-13.27 PFLOP/s 持续性能。最终，作者的高能物理和气候学模式分类问题的卷积神经网络表现出了超过那些高层次物理学特征选择所达到的最先进的分类准确性；而他们的半监督架构成功地在 15TB 的气候数据集中提取了天气模式，证明了深度学习在众核 HPC 系统上的有效优化和扩展.

Aug, 2017

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

机器学习辅助的卷积神经网络推断系统计算机架构设计

我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统，提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能，MAPE 分别为 5.03％和 5.94％。这种方法使计算机架构师能够在开发初期估计功耗和性能，减少了大量原型的必要性。这不仅节省了时间和金钱，同时也改善了上市时间。

Aug, 2023

面向神经网络推理加速的编译器和 FPGA 叠加

本研究介绍一种针对深度神经网络推理的覆盖层，通过引入一种轻量级的超长指令字（VLIW）网络支持控制和重新编程逻辑，以及实现了一个复杂的特定领域的图形编译器，以显著提高 CNNs/RNNs 的性能，最终在 Intel Arria 10 1150 上实现了～900 fps，并且对比以往研究，在性能方面有了巨大的进步。

Jul, 2018

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018