Look-Up mAI GeMM: 通过 msGeMM 将 AI GeMMs 性能提升近 2.5 倍

Oct, 2023

Look-Up mAI GeMM: 通过 msGeMM 将 AI GeMMs 性能提升近 2.5 倍

Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via msGeMM

Saeed Maleki

TL;DR该论文介绍了一种名为 msGeMM 的新算法，该算法表明低精度数据类型的 AI 模型可以在更少的乘法和加法指令的情况下运行，要求 CUDA 核心具有与 Tensor Cores 相同的能力来从小的查找表中添加元素。

Abstract

ai models are increasing in size and recent advancement in the community has shown that unlike hpc applications where double precision datatype are required, lower-precision datatypes such as fp8 or int4 are suff

ai models hpc applications low-precision datatypes tensor cores msgemm algorithm

发现论文，激发创造

FBGEMM：实现低精度深度学习推理的高性能技术

本文介绍了 fbgemm 这一高性能的内核库，其使用了深度学习中的浮点数、16 位整数、8 位整数甚至 4 位或 2 位整数等低精度数据类型，但是仍能保证与高精度数据类型相同的准确性，从而使得量化计算变得更加高效。fbgemm 通过 fusion、gemm 实现和阶段性的内核代码生成，提高计算效率，实践证明在 Facebook 上已经成为了生产基线的 2 倍以上。

Jan, 2021

DeepGEMM: 使用查找表在 CPU 结构上加速的超低精度推断

通过建立查找表并在推理时高效地访问它们，DeepGEMM 可以在 SIMD 硬件上执行超低精度卷积神经网络，比现有框架中的对应 8 位整数核心性能提高了高达 1.74 倍。

Apr, 2023

FP8-LM：训练 FP8 大型语言模型

我们探索了 FP8 低位数据格式以实现大规模语言模型（LLM）的高效训练。我们提出了一种新的 FP8 自动混合精度框架，可以在递增的方式下渐进地应用 8 位梯度、优化器状态和分布式学习。实验证明，在 H100 GPU 平台上使用我们的 FP8 混合精度训练框架，与广泛采用的 BF16 框架相比，GPT-175B 模型的训练不仅可以实现 42% 的实际内存使用降低，而且运行速度比 Nvidia Transformer Engine 快 64%，超过其 17%。此外，我们的 FP8 混合精度训练方法具有通用性，可以无缝应用于 LLM 指导调优、带有人类反馈的强化学习等任务，节省了微调开销。

Oct, 2023

基于编译器技术优化深度学习 GEMM

本文介绍了一种名为 NGEMM 的基于编译器的 GEMM 实现方法，用于加速低精度 DNN 的训练和推理。与 MKL 等库相比，NGEMM 的性能表现更优，平均速度提升了 1.86 倍。

Oct, 2019

IM-Unpack: 训练和推理使用任意低精度整数

通过使用低位整数表示矩阵的原始元素，减小舍入误差并提高效率，同时提出整数矩阵解包算法 (IM-Unpack) 来处理难以通过低位整数矩阵计算获得效率的矩阵，从而在深度学习中实现与浮点数计算的等效结果。

Mar, 2024

NVIDIA Tensor Core 可编程性、性能和精度

本文介绍了 NVIDIA Volta GPU 微架构中一种特殊的处理器 Tensor Core，它能够在每个时钟周期内对 4x4 矩阵执行一个矩阵乘积累加操作，经过测试，我们发现 NVIDIA Tensor Core 在 Tesla V100 GPU 上能够以混合精度提供 83 Tflops/s 的处理速度，使得 HPC 应用的矩阵乘法能够获得显著的性能提升。

Mar, 2018

高效适数值计算的开源框架

我们提出了一个通用的开源框架，旨在促进高效、个性化的数值矩阵乘法运算（MMM）。该框架提供了两个主要贡献：第一，一个经过优化的、自动化的算术数据通路生成流水线，可以实现高度定制化的脉动式 MMM 核心；第二，生成的核心能够无缝集成到用户代码中，无论使用的是哪种编程语言，而无需进行修改。该框架在多样化的高性能计算工作负载中展现了能效提升的系统性效果，这些工作负载展示了多种数字需求，如人工智能推理和海面高度计算。在人工智能推理方面，我们考虑了一系列最先进的神经网络模型，包括 ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169 和 VGG11，结合了两个数据集、两种计算机格式和 27 种不同的中间算术数据通路。我们的方法在所有情况下都能显著减少能耗，其中一个明显的例子是在使用 ResNet50 进行 ImageNet 推理时，IEEE754-32 的能耗降低了 3.3 倍，Bfloat16 的能耗降低了 1.4 倍。在保持 82.3% 和 86% 的准确率的同时，与传统的浮点数单元（FPUs）所实现的准确率相当。在 SSH 计算方面，我们的方法通过使用双精度字实现了完全可重现的结果，超过了传统双精度和四倍精度浮点数运算器（FPUs）的准确率。我们的方法相比 IEEE754-64 和 IEEE754-128，最低提高了 5 倍和 27 倍的 SSH 计算准确性，从而在每单位功耗方面的准确度提升分别为 5.6 倍和 15.1 倍。

May, 2024

LookupFFN: 让 Transformer 在 CPU 推理中计算更轻巧

通过研究 GEMM 基于前馈网络（FFN）的模块，我们提出了一种替代方案（称之为 LookupFFN），将大多数关键操作转化为内存查找，以减少所需的 FLOP，从而在 RoBERTa 语言模型预训练中实现类似性能。

Mar, 2024

FP6-LLM: 通过 FP6 中心算法系统共同设计高效服务大型语言模型

通过提出的 TC-FPx 全栈 GPU 核心设计方案，结合张量核心支持，为量化的大型语言模型推理提供全新的端到端支持（称为 FP6-LLM），实现了推理成本和模型质量之间的更好平衡。

Jan, 2024

BiQGEMM：二进制编码量化深度神经网络中的查找表矩阵乘法

本论文提出了一种针对量化 DNN（deep neural networks）的新型矩阵乘法方法，称为 BiQGEMM。通过一次指令同时访问多个量化权重， BiQGEMM 可以提高计算性能，并通过预计算中间结果来降低计算总量。在大量实验中，BiQGEMM 在 DNN 量化场景下表现出更高的性能。

May, 2020