AMULET: 自适应矩阵乘法任务

May, 2023

AMULET: Adaptive Matrix-Multiplication-Like Tasks

Junyoung Kim, Kenneth Ross, Eric Sedlar, Lukas Stadler

TL;DRAmulet 框架使用数据库和编译器优化技术来生成适合于特定执行环境的快速代码，相对于现有编译器，Amulet 在各种矩阵乘法任务上都获得了加速效果，可以处理更广泛的计算类型，并且在处理大型矩阵时性能通常接近手工调优的矩阵乘法库的 15%。

Abstract

Many useful tasks in data science and machine learning applications can be written as simple variations of matrix multiplication. However,

data science machine learning matrix multiplication compiler optimization amulet

发现论文，激发创造

FPGA 上快速、可扩展、节能的非逐元素矩阵乘法

该论文提出了一种高吞吐量、可扩展和节能的非逐元素矩阵乘法单元，作为神经网络的基本组件。通过优化近似矩阵乘法算法以及专用的存储和访问设计，该单元在 FPGA 上实现了高效的矩阵乘法，大大提高了 FPGA 上基于量化神经网络的加速器的吞吐量和能效。

Jul, 2024

矩阵相乘的无乘法方法

介绍了一种学习算法，用于高效的近似矩阵乘法，其常用特性是需要零次乘积添加操作。实验表明，它比现有方法快 10 倍以上，而且比确切矩阵积快 100 倍。此外，核心操作 - 混合哈希，平均和字节混洗，可以是机器学习的更有前途的构建块，而不是近期研究和硬件投资重点的稀疏、因式分解和 / 或标量量化矩阵乘积。

Jun, 2021

RedMule：用于灵活、高能效的芯片线性代数和 TinyML 训练加速的混合精度矩阵乘操作引擎

该研究旨在解决 TinyML 场景下近传感器低功耗训练的挑战，并提出了一种低功耗特殊加速器 RedMulE，它支持 FP16 和混合 FP8 格式的多精度浮点通用矩阵乘法运算（GEMM-Ops）加速，并成功地使小型机器学习模型在低功耗设备上训练。

Jan, 2023

应急稀疏性的掩码矩阵乘法

利用动态代码查找和稀疏性映射等方法，构建了一个矢量化和并行矩阵乘法系统，针对人工智能工作负载中的稀疏数据表示进行了优化，从而显著提升了性能。

Feb, 2024

一系列矩阵乘法例程的自动生成器与 Apache TVM

利用 Apache TVM 开源框架自动生成算法族，以获得高性能的矩阵乘法算法，并自动化生成特定处理器的微内核，提高可移植性、可维护性并简化软件生命周期，同时实现高灵活性并优化解决方案以满足不同数据类型、处理器架构和矩阵形状需求，具有较小的内存占用，性能可以与手动优化的库相媲美（对于特定的矩阵形状甚至更好）。

Oct, 2023

应用 Exo 解决矩阵乘法微内核生成

矩阵乘法（或 GEMM）的优化是近几十年来的需求之一，本研究提出了一种使用 Exo 编译器生成 micro-kernels 的逐步过程，并且性能接近（甚至优于）使用内置函数或汇编代码手动开发的 micro-kernels，同时提高了生成代码的可移植性。

Oct, 2023

高效适数值计算的开源框架

我们提出了一个通用的开源框架，旨在促进高效、个性化的数值矩阵乘法运算（MMM）。该框架提供了两个主要贡献：第一，一个经过优化的、自动化的算术数据通路生成流水线，可以实现高度定制化的脉动式 MMM 核心；第二，生成的核心能够无缝集成到用户代码中，无论使用的是哪种编程语言，而无需进行修改。该框架在多样化的高性能计算工作负载中展现了能效提升的系统性效果，这些工作负载展示了多种数字需求，如人工智能推理和海面高度计算。在人工智能推理方面，我们考虑了一系列最先进的神经网络模型，包括 ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169 和 VGG11，结合了两个数据集、两种计算机格式和 27 种不同的中间算术数据通路。我们的方法在所有情况下都能显著减少能耗，其中一个明显的例子是在使用 ResNet50 进行 ImageNet 推理时，IEEE754-32 的能耗降低了 3.3 倍，Bfloat16 的能耗降低了 1.4 倍。在保持 82.3% 和 86% 的准确率的同时，与传统的浮点数单元（FPUs）所实现的准确率相当。在 SSH 计算方面，我们的方法通过使用双精度字实现了完全可重现的结果，超过了传统双精度和四倍精度浮点数运算器（FPUs）的准确率。我们的方法相比 IEEE754-64 和 IEEE754-128，最低提高了 5 倍和 27 倍的 SSH 计算准确性，从而在每单位功耗方面的准确度提升分别为 5.6 倍和 15.1 倍。

May, 2024

可扩展的无矩阵乘法语言建模

本研究展示了在大规模语言模型中，可以从 LLMs 中完全消除矩阵乘法（MatMul）操作，同时在至少 27 亿参数规模下保持与最先进的 Transformer 模型相当的性能。作者提供了一个 GPU 高效的模型实现，其在训练期间将内存使用量减少了高达 61%。通过在 FPGA 上构建自定义硬件解决方案，作者证明了超过人类可读吞吐量 13W 的大规模模型的处理效率，使得 LLMs 更接近于类脑的效率。该研究不仅展示了 LLMs 在实现有效性时可以被精简到何种程度，还指出了未来加速器在处理下一代轻量级 LLMs 时应优化的操作类型。

Jun, 2024

NeuralMatrix：将整个神经网络转换为通用矩阵乘法以实现高效推断

本研究提出了一种新的框架 NeuralMatrix，可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络，同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。

May, 2023

基于编译器技术优化深度学习 GEMM

本文介绍了一种名为 NGEMM 的基于编译器的 GEMM 实现方法，用于加速低精度 DNN 的训练和推理。与 MKL 等库相比，NGEMM 的性能表现更优，平均速度提升了 1.86 倍。

Oct, 2019