Dec, 2023

理解基于 FPGA 的空间加速对大型语言模型推理的潜力

TL;DR通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型,实验结果表明相较于之前的 FPGA 加速器,在 BERT 模型方面可以实现 16.1 倍的加速,在 GPT 生成推理方面,在前置阶段相较于 DFX,一个 FPGA 叠加层,在解码阶段相较于 NVIDIA A100 GPU,分别实现 2.2 倍的加速和 5.7 倍的能效提升。