Jan, 2024

FlightLLM: 基于 FPGA 的高效大型语言模型推断及其完整映射流程

TL;DR该研究论文提出了一种基于 FPGA 的 FlightLLM 方法,通过利用 FPGA 特定资源和创新解决方案,实现了大规模语言模型(LLMs)的高效推理,包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中,该方法在 Xilinx Alveo U280 FPGA 上实现了高达 6.0 倍的能效提升和 1.8 倍的成本效益,同时在吞吐量方面也超过了 NVIDIA A100 GPU。