在 FPGAs 中部署 AI 推理引擎的框架实现
介绍了基于 FPGA 进行神经网络推理的案例研究,其使用高级综合技术(HLS)构建机器学习模型,旨在为粒子物理学的高速实时事件处理提供支持,适用于很多场合,如寻找新的暗扇区粒子和测量希格斯玻色子等。
Apr, 2018
本研究对于 FPGA 卡驱动的机器学习算法的使用进行探讨,并证明在高亮度程序触发策略和事件选择中,这种算法具有较高的准确性和较低的推理时间。
Jul, 2023
使用嵌入式可编程门阵列(eFPGA)技术在应用特定集成电路(ASIC)的设计中实现可重构逻辑,将 ASIC 的低功耗和高效性与 FPGA 的易配置性相结合,尤其适用于下一代对撞机实验数据流中的机器学习用例。通过开源框架 “FABulous”,设计了使用 130 纳米和 28 纳米 CMOS 技术节点的 eFPGA,并经过测试进行了验证。通过模拟高能粒子经过硅像素传感器和基于机器学习的分类器的测试,验证了 eFPGA 作为前端读出芯片的能力。通过在 eFPGA 上成功合成和配置传感器数据的降维算法,以完美准确度复现了预期算法结果。讨论了对 eFPGA 技术的进一步发展以及其在对撞机探测器读出中的应用。
Apr, 2024
本文介绍一种基于 Tensorflow 的开源工具流,可以将数值计算模型映射到可合成硬件,从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。
Jul, 2018
实施机器学习模型于硬件上已取得了相当大的兴趣和进展,而该研究探索了电子可变程序逻辑阵列(eFPGA)在完全连接神经网络(fcNN)和增强决策树(BDT)模型实现方面的参数空间以及资源效率的权衡,以帮助制定一个作为测试芯片的一部分的 eFPGA 结构的规范。
Apr, 2024
通过对基于机器学习的算法在可编程门阵列上进行准确的喷注风味分类的研究,展示了在输入规模和算法选择方面的延迟和资源消耗如何扩展,并提供了一种用于在 CERN LHC 的高亮度阶段进行标记的模型的初始设计。通过量化感知训练和高效硬件实现,我们展示了可以以较低的计算资源成本实现复杂架构(例如深度集合和交互网络)的 O(100)纳秒推理。
Feb, 2024
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型,实验结果表明相较于之前的 FPGA 加速器,在 BERT 模型方面可以实现 16.1 倍的加速,在 GPT 生成推理方面,在前置阶段相较于 DFX,一个 FPGA 叠加层,在解码阶段相较于 NVIDIA A100 GPU,分别实现 2.2 倍的加速和 5.7 倍的能效提升。
Dec, 2023
本文提出了一种可扩展的加速器体系结构 DLAU,通过在 FPGA 上实现,使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗,实验结果表明 DLAU 加速器与 Intel Core2 处理器相比,速度提高了 36.1 倍,功耗为 234mW。
May, 2016
在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器,但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题,我们开发了一种用于 transformers 的加速器 LLama 2,通过高级综合 (HLS) 来在 FPGAs 上进行原型设计。使用 HLS 的方法能够实现对 Intel Xeon Broadwell E5-2686 v4 CPU 和 NVIDIA RTX 3090 GPU 相比,Xilinx Virtex UltraScale+ VU9P FPGA 每个标记使用的能量减少了 12.75 倍和 8.25 倍,同时相对于 CPU 的推理速度提高了 2.46 倍,相对于 RTX 3090 GPU 的速度保持在 0.53 倍。我们开源了代码并记录了合成的步骤,希望这项工作能够推动 FPGAs 在 transformer 推理中的广泛应用,并激发对于能效推理方法的研究。
Apr, 2024
使用 LFADS 模型和 FPGA 实现的高效实时数据处理方法,能够从高维度的神经尖峰数据中推断出潜在的动态,为研究神经人群动力学和提高计算算法的实时处理能力提供了新的机会。
Feb, 2024