Mar, 2024

NoMAD-Attention:通过无乘法加法注意力在 CPU 上高效执行 LLM 推断

TL;DR借助现代 CPU 中的 Single-Instruction-Multiple-Data(SIMD)寄存器的独特能力,本文提出了 NoMAD-Attention,一种高效的注意力算法,通过在寄存器中进行查找来取代昂贵的 Multiply-Add(MAD)矩阵运算,从而实现了注意力分数的计算。实证评估表明,NoMAD-Attention 在保持原始 LLMs 质量的同时,将基于 4 位量化的 LLaMA-7B 模型的速度提高了 2 倍,上下文长度为 16k。