IM-Unpack: 训练和推理使用任意低精度整数

Mar, 2024

IM-Unpack: 训练和推理使用任意低精度整数

IM-Unpack: Training and Inference with Arbitrarily Low Precision Integers

Zhanpeng Zeng, Karthikeyan Sankaralingam, Vikas Singh

TL;DR通过使用低位整数表示矩阵的原始元素，减小舍入误差并提高效率，同时提出整数矩阵解包算法 (IM-Unpack) 来处理难以通过低位整数矩阵计算获得效率的矩阵，从而在深度学习中实现与浮点数计算的等效结果。

Abstract

general matrix multiply (GEMM) is a central operation in deep learning and corresponds to the largest chunk of the compute footprint. Therefore, improving its efficiency is an active topic of ongoing research. A popular strategy is the use of →

general matrix multiply low bit-width integers transformer-based models integer matrix unpacking efficiency gains

发现论文，激发创造

基于编译器技术优化深度学习 GEMM

本文介绍了一种名为 NGEMM 的基于编译器的 GEMM 实现方法，用于加速低精度 DNN 的训练和推理。与 MKL 等库相比，NGEMM 的性能表现更优，平均速度提升了 1.86 倍。

Oct, 2019

DeepGEMM: 使用查找表在 CPU 结构上加速的超低精度推断

通过建立查找表并在推理时高效地访问它们，DeepGEMM 可以在 SIMD 硬件上执行超低精度卷积神经网络，比现有框架中的对应 8 位整数核心性能提高了高达 1.74 倍。

Apr, 2023

Look-Up mAI GeMM: 通过 msGeMM 将 AI GeMMs 性能提升近 2.5 倍

该论文介绍了一种名为 msGeMM 的新算法，该算法表明低精度数据类型的 AI 模型可以在更少的乘法和加法指令的情况下运行，要求 CUDA 核心具有与 Tensor Cores 相同的能力来从小的查找表中添加元素。

Oct, 2023

BiQGEMM：二进制编码量化深度神经网络中的查找表矩阵乘法

本论文提出了一种针对量化 DNN（deep neural networks）的新型矩阵乘法方法，称为 BiQGEMM。通过一次指令同时访问多个量化权重， BiQGEMM 可以提高计算性能，并通过预计算中间结果来降低计算总量。在大量实验中，BiQGEMM 在 DNN 量化场景下表现出更高的性能。

May, 2020

NeuralMatrix：将整个神经网络转换为通用矩阵乘法以实现高效推断

本研究提出了一种新的框架 NeuralMatrix，可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络，同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。

May, 2023

FBGEMM：实现低精度深度学习推理的高性能技术

本文介绍了 fbgemm 这一高性能的内核库，其使用了深度学习中的浮点数、16 位整数、8 位整数甚至 4 位或 2 位整数等低精度数据类型，但是仍能保证与高精度数据类型相同的准确性，从而使得量化计算变得更加高效。fbgemm 通过 fusion、gemm 实现和阶段性的内核代码生成，提高计算效率，实践证明在 Facebook 上已经成为了生产基线的 2 倍以上。

Jan, 2021

LLM.int8 (): 用于大规模 Transformers 的 8 位矩阵乘法

通过 Int8 矩阵乘法的程序，我们可以在保持全精度性能的前提下将推理所需的内存削减一半，使用 LLM.int8 ()，我们可以展示出具有高达 175B 参数的 LLMs 性能无损推理的可能性，这一结果使得该模型更加易于使用并且可以在单个服务器上运行。

Aug, 2022

Misam: 使用机器学习在稀疏稀疏矩阵乘法的数据流选择

通过使用决策树和深度强化学习技术，本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案，进一步对比了传统的启发式方法，结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。

Jun, 2024

nuQmm: 大规模生成式语言模型高效推理的量化矩阵乘法

该论文提出了一个有效的推理框架用于大规模生成式语言模型，采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度，通过非均匀量化和 nuQmm 的加速矩阵乘法，实现了模型大小的减小，并减少了大型 LM 的推理延迟

Jun, 2022

基于低内存 GEMM 的深度神经网络卷积算法

本文提出两种新型基于 GEMM 的算法，分别只需要额外的 O (MHW) 和 O (KW) 的空间，显著降低了 DNN 卷积的空间开销，适用于内存受限的嵌入式系统，并且实验表明我们的低内存算法和最好的图案构建方法一样快，尽管需要的额外内存只相当于后者的一小部分。

Sep, 2017