在多 FPGA 平台上实现大规模 Transformer 的可行性
本文介绍了在可编程门阵列 (FPGA) 上使用 hls4ml 工具实现变压器架构的高效实现。通过使用变压器模型在解决各种问题方面的有效性的证明,其在粒子物理实验触发器中的应用成为了一个引人关注的课题。在这项工作中,我们实现了变压器模型的关键组成部分,如多头注意力和 softmax 层。为了评估我们的实现的有效性,我们专注于一个粒子物理学喷注风味标记问题,并使用了一个公共数据集。我们在 Xilinx UltraScale+ FPGA 上记录了低于 2 微秒的延迟,该延迟符合 CERN 大型强子对撞机实验的硬件触发器要求。
Feb, 2024
本文综述以硬件加速为视角,探讨深度学习及可编程门阵列的发展趋势和革新,旨在讨论 FPGAs 在更好地为深度学习社区提供服务方面的最佳应用。
Feb, 2016
本文介绍一种基于 Tensorflow 的开源工具流,可以将数值计算模型映射到可合成硬件,从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。
Jul, 2018
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型,实验结果表明相较于之前的 FPGA 加速器,在 BERT 模型方面可以实现 16.1 倍的加速,在 GPT 生成推理方面,在前置阶段相较于 DFX,一个 FPGA 叠加层,在解码阶段相较于 NVIDIA A100 GPU,分别实现 2.2 倍的加速和 5.7 倍的能效提升。
Dec, 2023
在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器,但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题,我们开发了一种用于 transformers 的加速器 LLama 2,通过高级综合 (HLS) 来在 FPGAs 上进行原型设计。使用 HLS 的方法能够实现对 Intel Xeon Broadwell E5-2686 v4 CPU 和 NVIDIA RTX 3090 GPU 相比,Xilinx Virtex UltraScale+ VU9P FPGA 每个标记使用的能量减少了 12.75 倍和 8.25 倍,同时相对于 CPU 的推理速度提高了 2.46 倍,相对于 RTX 3090 GPU 的速度保持在 0.53 倍。我们开源了代码并记录了合成的步骤,希望这项工作能够推动 FPGAs 在 transformer 推理中的广泛应用,并激发对于能效推理方法的研究。
Apr, 2024
本研究旨在探索 FPGA 在高性能计算中的应用价值,通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化,成功提升了推理性能,进一步证明了 FPGA 在计算加速中的优越性,通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s,相比市面上其他设备,具有更高的能源效率。
Apr, 2023
介绍了基于 FPGA 进行神经网络推理的案例研究,其使用高级综合技术(HLS)构建机器学习模型,旨在为粒子物理学的高速实时事件处理提供支持,适用于很多场合,如寻找新的暗扇区粒子和测量希格斯玻色子等。
Apr, 2018
我们介绍了 MegaScale 的设计、实现和工程经验,它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法,通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战,并分享了我们在确保系统稳定性方面的操作经验。
Feb, 2024
该研究论文提出了一种基于 FPGA 的 FlightLLM 方法,通过利用 FPGA 特定资源和创新解决方案,实现了大规模语言模型(LLMs)的高效推理,包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中,该方法在 Xilinx Alveo U280 FPGA 上实现了高达 6.0 倍的能效提升和 1.8 倍的成本效益,同时在吞吐量方面也超过了 NVIDIA A100 GPU。
Jan, 2024
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021