可扩展的无矩阵乘法语言建模

Jun, 2024

Scalable MatMul-free Language Modeling

Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang...

TL;DR本研究展示了在大规模语言模型中，可以从 LLMs 中完全消除矩阵乘法（MatMul）操作，同时在至少 27 亿参数规模下保持与最先进的 Transformer 模型相当的性能。作者提供了一个 GPU 高效的模型实现，其在训练期间将内存使用量减少了高达 61%。通过在 FPGA 上构建自定义硬件解决方案，作者证明了超过人类可读吞吐量 13W 的大规模模型的处理效率，使得 LLMs 更接近于类脑的效率。该研究不仅展示了 LLMs 在实现有效性时可以被精简到何种程度，还指出了未来加速器在处理下一代轻量级 LLMs 时应优化的操作类型。

Abstract

matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this wo

matrix multiplication language models performance memory usage accelerators

发现论文，激发创造

nuQmm: 大规模生成式语言模型高效推理的量化矩阵乘法

该论文提出了一个有效的推理框架用于大规模生成式语言模型，采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度，通过非均匀量化和 nuQmm 的加速矩阵乘法，实现了模型大小的减小，并减少了大型 LM 的推理延迟

Jun, 2022

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

MegaScale：将大规模语言模型训练扩展至超过 10,000 个 GPU

我们介绍了 MegaScale 的设计、实现和工程经验，它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法，通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战，并分享了我们在确保系统稳定性方面的操作经验。

Feb, 2024

LLM.int8 (): 用于大规模 Transformers 的 8 位矩阵乘法

通过 Int8 矩阵乘法的程序，我们可以在保持全精度性能的前提下将推理所需的内存削减一半，使用 LLM.int8 ()，我们可以展示出具有高达 175B 参数的 LLMs 性能无损推理的可能性，这一结果使得该模型更加易于使用并且可以在单个服务器上运行。

Aug, 2022

矩阵相乘的无乘法方法

介绍了一种学习算法，用于高效的近似矩阵乘法，其常用特性是需要零次乘积添加操作。实验表明，它比现有方法快 10 倍以上，而且比确切矩阵积快 100 倍。此外，核心操作 - 混合哈希，平均和字节混洗，可以是机器学习的更有前途的构建块，而不是近期研究和硬件投资重点的稀疏、因式分解和 / 或标量量化矩阵乘积。

Jun, 2021

RedMule：用于灵活、高能效的芯片线性代数和 TinyML 训练加速的混合精度矩阵乘操作引擎

该研究旨在解决 TinyML 场景下近传感器低功耗训练的挑战，并提出了一种低功耗特殊加速器 RedMulE，它支持 FP16 和混合 FP8 格式的多精度浮点通用矩阵乘法运算（GEMM-Ops）加速，并成功地使小型机器学习模型在低功耗设备上训练。

Jan, 2023

ShiftAddLLM：通过后期训练的无乘法重参数化加速预先训练的 LLMs

本研究提出了一种通过后期训练的 ShiftAndAddLLM 来加速预训练的大型语言模型，通过将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵，并将与二进制矩阵相关的乘法重新参数化为在激活和缩放因子之间进行的移位和加法操作，以减少内存使用和延迟，并且通过多目标优化方法来最小化权重和输出激活重新参数化误差，进一步降低了精度损失。

Jun, 2024

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

Stella Nera: 基于近似矩阵乘法的无乘法器 DNN 加速实现 161 TOp/s/W

将 Maddness 方法应用于 MatMul 任务，通过基于哈希的 PQ 索引和查找表达到高效能与高能效的加速器。

Nov, 2023

FPGA 上快速、可扩展、节能的非逐元素矩阵乘法

该论文提出了一种高吞吐量、可扩展和节能的非逐元素矩阵乘法单元，作为神经网络的基本组件。通过优化近似矩阵乘法算法以及专用的存储和访问设计，该单元在 FPGA 上实现了高效的矩阵乘法，大大提高了 FPGA 上基于量化神经网络的加速器的吞吐量和能效。

Jul, 2024