IM-Unpack: 训练和推理使用任意低精度整数
本文介绍了一种名为 NGEMM 的基于编译器的 GEMM 实现方法,用于加速低精度 DNN 的训练和推理。与 MKL 等库相比,NGEMM 的性能表现更优,平均速度提升了 1.86 倍。
Oct, 2019
通过建立查找表并在推理时高效地访问它们,DeepGEMM 可以在 SIMD 硬件上执行超低精度卷积神经网络,比现有框架中的对应 8 位整数核心性能提高了高达 1.74 倍。
Apr, 2023
该论文介绍了一种名为 msGeMM 的新算法,该算法表明低精度数据类型的 AI 模型可以在更少的乘法和加法指令的情况下运行,要求 CUDA 核心具有与 Tensor Cores 相同的能力来从小的查找表中添加元素。
Oct, 2023
本论文提出了一种针对量化 DNN(deep neural networks)的新型矩阵乘法方法,称为 BiQGEMM。通过一次指令同时访问多个量化权重, BiQGEMM 可以提高计算性能,并通过预计算中间结果来降低计算总量。在大量实验中,BiQGEMM 在 DNN 量化场景下表现出更高的性能。
May, 2020
本研究提出了一种新的框架 NeuralMatrix,可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络,同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。
May, 2023
本文介绍了 fbgemm 这一高性能的内核库,其使用了深度学习中的浮点数、16 位整数、8 位整数甚至 4 位或 2 位整数等低精度数据类型,但是仍能保证与高精度数据类型相同的准确性,从而使得量化计算变得更加高效。fbgemm 通过 fusion、gemm 实现和阶段性的内核代码生成,提高计算效率,实践证明在 Facebook 上已经成为了生产基线的 2 倍以上。
Jan, 2021
通过 Int8 矩阵乘法的程序,我们可以在保持全精度性能的前提下将推理所需的内存削减一半,使用 LLM.int8 (),我们可以展示出具有高达 175B 参数的 LLMs 性能无损推理的可能性,这一结果使得该模型更加易于使用并且可以在单个服务器上运行。
Aug, 2022
通过使用决策树和深度强化学习技术,本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案,进一步对比了传统的启发式方法,结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。
Jun, 2024
该论文提出了一个有效的推理框架用于大规模生成式语言模型,采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度,通过非均匀量化和 nuQmm 的加速矩阵乘法,实现了模型大小的减小,并减少了大型 LM 的推理延迟
Jun, 2022
本文提出两种新型基于 GEMM 的算法,分别只需要额外的 O (MHW) 和 O (KW) 的空间,显著降低了 DNN 卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017