高效适数值计算的开源框架

May, 2024

An Open-Source Framework for Efficient Numerically-Tailored Computations

Louis Ledoux, Marc Casas

TL;DR我们提出了一个通用的开源框架，旨在促进高效、个性化的数值矩阵乘法运算（MMM）。该框架提供了两个主要贡献：第一，一个经过优化的、自动化的算术数据通路生成流水线，可以实现高度定制化的脉动式 MMM 核心；第二，生成的核心能够无缝集成到用户代码中，无论使用的是哪种编程语言，而无需进行修改。该框架在多样化的高性能计算工作负载中展现了能效提升的系统性效果，这些工作负载展示了多种数字需求，如人工智能推理和海面高度计算。在人工智能推理方面，我们考虑了一系列最先进的神经网络模型，包括 ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169 和 VGG11，结合了两个数据集、两种计算机格式和 27 种不同的中间算术数据通路。我们的方法在所有情况下都能显著减少能耗，其中一个明显的例子是在使用 ResNet50 进行 ImageNet 推理时，IEEE754-32 的能耗降低了 3.3 倍，Bfloat16 的能耗降低了 1.4 倍。在保持 82.3% 和 86% 的准确率的同时，与传统的浮点数单元（FPUs）所实现的准确率相当。在 SSH 计算方面，我们的方法通过使用双精度字实现了完全可重现的结果，超过了传统双精度和四倍精度浮点数运算器（FPUs）的准确率。我们的方法相比 IEEE754-64 和 IEEE754-128，最低提高了 5 倍和 27 倍的 SSH 计算准确性，从而在每单位功耗方面的准确度提升分别为 5.6 倍和 15.1 倍。

Abstract

We present a versatile open-source framework designed to facilitate efficient, numerically-tailored matrix-matrix multiplications (MMMs). The framework offers two primary contributions: first, a fine-tuned, autom

open-source framework numerically-tailored matrix-matrix multiplications systolic mmm kernels high-performance computing energy consumption

发现论文，激发创造

FPGA 上快速、可扩展、节能的非逐元素矩阵乘法

该论文提出了一种高吞吐量、可扩展和节能的非逐元素矩阵乘法单元，作为神经网络的基本组件。通过优化近似矩阵乘法算法以及专用的存储和访问设计，该单元在 FPGA 上实现了高效的矩阵乘法，大大提高了 FPGA 上基于量化神经网络的加速器的吞吐量和能效。

Jul, 2024

认证神经网络推断的高效数学稳健运算

近年来，机器学习（ML）和神经网络（NNs）在各个领域广泛使用和受到关注，特别是在交通运输领域实现自主性，包括城市空中出租车（UAM）的出现。然而，对认证的担忧已经出现，强调了需要包含整个 ML 和 NN 管道的标准化过程的发展。本文深入研究了推理阶段和所需的硬件，突出了与 IEEE 754 浮点算术相关的挑战，并提出了替代的数字表示方法。通过评估不同的求和和点积算法，我们旨在减轻与非关联性有关的问题。此外，我们对定点算术的探索揭示了它相对于浮点方法的优势，显示出显著的硬件效率。采用经验方法，我们确定了实现可接受的精度所需的最佳位宽，考虑到位宽优化的固有复杂性。

Jan, 2024

Stella Nera: 基于近似矩阵乘法的无乘法器 DNN 加速实现 161 TOp/s/W

将 Maddness 方法应用于 MatMul 任务，通过基于哈希的 PQ 索引和查找表达到高效能与高能效的加速器。

Nov, 2023

NeuralMatrix：将整个神经网络转换为通用矩阵乘法以实现高效推断

本研究提出了一种新的框架 NeuralMatrix，可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络，同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。

May, 2023

nuQmm: 大规模生成式语言模型高效推理的量化矩阵乘法

该论文提出了一个有效的推理框架用于大规模生成式语言模型，采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度，通过非均匀量化和 nuQmm 的加速矩阵乘法，实现了模型大小的减小，并减少了大型 LM 的推理延迟

Jun, 2022

RedMule：用于灵活、高能效的芯片线性代数和 TinyML 训练加速的混合精度矩阵乘操作引擎

该研究旨在解决 TinyML 场景下近传感器低功耗训练的挑战，并提出了一种低功耗特殊加速器 RedMulE，它支持 FP16 和混合 FP8 格式的多精度浮点通用矩阵乘法运算（GEMM-Ops）加速，并成功地使小型机器学习模型在低功耗设备上训练。

Jan, 2023

StrassenNets：带有乘法预算的深度学习

本研究介绍了一种使用二层求和乘积网络（SPN）的方法，通过学习从数据中的边缘权重（三元）来获得深度神经网络（DNN）层中矩阵乘法的低成本近似，同时应用知识蒸馏，实现对 DNN 中乘法操作数量的预算，从而在保持预测性能的同时，实现乘法操作数量的大幅度减少。

Dec, 2017

RMSMP：一种具有逐行混合方案和多精度的新型深度神经网络量化框架

本文提出了一种新颖的深度神经网络量化框架 ——RMSMP，采用行混合方案和多精度方法，在硬件推理中简化操作，同时保持准确性。通过对所有层进行线下确定量化方案，RMSMP 量化算法使用 Hessian 和基于方差的方法为每行分配精度和方案，并在 FPGA 设备上实现，与 4 位定点基线相比，在 ImageNet 上对 ResNet-18 的端到端推理时间实现了 3.65 倍加速。

Oct, 2021

Look-Up mAI GeMM: 通过 msGeMM 将 AI GeMMs 性能提升近 2.5 倍

该论文介绍了一种名为 msGeMM 的新算法，该算法表明低精度数据类型的 AI 模型可以在更少的乘法和加法指令的情况下运行，要求 CUDA 核心具有与 Tensor Cores 相同的能力来从小的查找表中添加元素。

Oct, 2023

深度神经网络的超低精度无乘训练

本文提出了一种自适应分层比例缩放的位编码量化（ALS-POTQ）方法和无乘积 MAC 的方法（MF-MAC），可以消除线性层中所有 FP32 乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性，从而获得比现有方法更高的能源效率和准确性。

Feb, 2023