大型语言模型推理加速:全面的硬件视角
LLMA是一种基于并行计算的LLM加速器,通过在一次解码步骤中选择参考文本并将其标记复制到解码器,即可实现对LLM的推理加速并提高计算并行性,使其在多种实际生成场景中生成结果与贪婪解码相同,达到2倍以上的加速。
Apr, 2023
大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的LLMa在两代热门GPU(NVIDIA V100和A100)以及两个数据集(Alpaca和GSM8K)上的推理性能与推理能源成本。
Oct, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时,在CPU上加速LLM推理,展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性,并显示了在CPU上的极高推理效率。
Nov, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
本研究旨在通过使用闪存将模型参数存储在DRAM之外,以满足超过DRAM容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的“窗口化”与利用闪存的顺序数据访问能力来增加数据块大小的“行列捆绑”。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU和GPU分别实现4-5倍和20-25倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的LLMs推理铺平了道路。
Dec, 2023
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在AMD Alveo U280 FPGA设备上实现BERT和GPT2模型,实验结果表明相较于之前的FPGA加速器,在BERT模型方面可以实现16.1倍的加速,在GPT生成推理方面,在前置阶段相较于DFX,一个FPGA叠加层,在解码阶段相较于NVIDIA A100 GPU,分别实现2.2倍的加速和5.7倍的能效提升。
Dec, 2023
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
Jan, 2024
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
本研究解决了大型语言模型(LLM)在性能优化和资源消耗方面的挑战。通过系统文献综述,提出了多种方法来加快LLM的训练和推理,同时保持准确性。研究表明,可以在不损失性能的情况下,显著降低计算和内存成本,推动LLM的广泛应用。
Sep, 2024