用于高能对撞机长寿命粒子触发的 FPGA 快速神经网络推理

Jul, 2023

用于高能对撞机长寿命粒子触发的 FPGA 快速神经网络推理

Fast Neural Network Inference on FPGAs for Triggering on Long-Lived Particles at Colliders

Andrea Coccaro, Francesco Armando Di Bello, Stefano Giagu, Lucrezia Rambelli, Nicola Stocchetti

TL;DR本研究对于 FPGA 卡驱动的机器学习算法的使用进行探讨，并证明在高亮度程序触发策略和事件选择中，这种算法具有较高的准确性和较低的推理时间。

Abstract

Experimental particle physics demands a sophisticated trigger and acquisition system capable to efficiently retain the collisions of interest for further investigation. Heterogeneous computing with the employment of fpg

particle physics fpga machine learning triggering strategy event selection

发现论文，激发创造

基于 FPGA 的深度神经网络在粒子物理中的快速推断

介绍了基于 FPGA 进行神经网络推理的案例研究，其使用高级综合技术（HLS）构建机器学习模型，旨在为粒子物理学的高速实时事件处理提供支持，适用于很多场合，如寻找新的暗扇区粒子和测量希格斯玻色子等。

Apr, 2018

基于 FPGA 的粒子轨迹跟踪的低延迟边缘分类 GNN

本文提出了一种基于 FPGA 的资源高效的 GNN 架构，用于低延迟的粒子轨迹重建，该架构在 Xilinx UltraScale + VU9P 上的结果表明，相比于 CPU 和 GPU，性能提高了 1625X 和 1574X。

Jun, 2023

基于 FPGA 的粒子物理实验的超快速变压器

本文介绍了在可编程门阵列 (FPGA) 上使用 hls4ml 工具实现变压器架构的高效实现。通过使用变压器模型在解决各种问题方面的有效性的证明，其在粒子物理实验触发器中的应用成为了一个引人关注的课题。在这项工作中，我们实现了变压器模型的关键组成部分，如多头注意力和 softmax 层。为了评估我们的实现的有效性，我们专注于一个粒子物理学喷注风味标记问题，并使用了一个公共数据集。我们在 Xilinx UltraScale+ FPGA 上记录了低于 2 微秒的延迟，该延迟符合 CERN 大型强子对撞机实验的硬件触发器要求。

Feb, 2024

仅需集合：基于 FPGA 的超快速喷注分类方法在 HL-LHC 中的应用

通过对基于机器学习的算法在可编程门阵列上进行准确的喷注风味分类的研究，展示了在输入规模和算法选择方面的延迟和资源消耗如何扩展，并提供了一种用于在 CERN LHC 的高亮度阶段进行标记的模型的初始设计。通过量化感知训练和高效硬件实现，我们展示了可以以较低的计算资源成本实现复杂架构（例如深度集合和交互网络）的 O（100）纳秒推理。

Feb, 2024

在 FPGAs 中部署 AI 推理引擎的框架实现

本文介绍了用于解决 SLAC 数据实验的高速探测器的存储问题的解决方案 —— 用机器学习技术在边缘计算设备上实现实时数据处理的 SLAC 神经网络库框架，该框架采用基于 FPGA 的加速器来实现 ML 解决方案，并且支持所有权重的 RTL 重训练和恢复。

May, 2023

在粒子探测器读出中，130 纳米和 28 纳米 CMOS 嵌入式 FPGA 的机器学习发展

使用嵌入式可编程门阵列（eFPGA）技术在应用特定集成电路（ASIC）的设计中实现可重构逻辑，将 ASIC 的低功耗和高效性与 FPGA 的易配置性相结合，尤其适用于下一代对撞机实验数据流中的机器学习用例。通过开源框架 “FABulous”，设计了使用 130 纳米和 28 纳米 CMOS 技术节点的 eFPGA，并经过测试进行了验证。通过模拟高能粒子经过硅像素传感器和基于机器学习的分类器的测试，验证了 eFPGA 作为前端读出芯片的能力。通过在 eFPGA 上成功合成和配置传感器数据的降维算法，以完美准确度复现了预期算法结果。讨论了对 eFPGA 技术的进一步发展以及其在对撞机探测器读出中的应用。

Apr, 2024

利用 FPGA 技术增强生物医学计算

本研究详细探讨了使用卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）和深度置信网络（DBN）通过可编程门阵列（FPGA）改进对心电图（ECG）信号的分析的复杂神经网络框架，使用 MIT-BIH 心律失常数据库作为模型训练和评估的基础，并加入高斯噪声来提高算法的鲁棒性。研究中我们采用多层结构进行特定处理和分类功能的设计，使用了 EarlyStopping 回调和 Dropout 层等策略来防止过拟合现象。此外，还详细介绍了为 PYNQ Z1 平台创建定制化的张量计算单元（TCU）加速器的过程。该研究提供了一个系统的方法论，涵盖了在 Docker 中配置 Tensil 工具链、选择架构、PS-PL 配置以及模型的编译和部署。通过评估延迟和吞吐量等性能指标，展示了 FPGA 在先进的生物医学计算中的效果。最终，本研究成果在各个领域优化 FPGA 上的神经网络操作提供了全面的指南。

Nov, 2023

利用 FPGA 能力加速生物医学计算

本研究基于多种高级神经网络结构，包括卷积神经网络、循环神经网络、LSTM 和深度置信网络，利用可编程门阵列（FPGA）进行 ECG 信号分析，探索开发基于 PYNQ Z1 板的自定义张量计算单元（TCU）加速器，为各种应用程序优化神经网络性能提供指导。

Jul, 2023

理解基于 FPGA 的空间加速对大型语言模型推理的潜力

通过对大型语言模型的空间加速进行研究，本文介绍了针对特定运算符或层的硬件单元专门化的方法，并通过数据流架构实现它们之间的直接通信，从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型，实验结果表明相较于之前的 FPGA 加速器，在 BERT 模型方面可以实现 16.1 倍的加速，在 GPT 生成推理方面，在前置阶段相较于 DFX，一个 FPGA 叠加层，在解码阶段相较于 NVIDIA A100 GPU，分别实现 2.2 倍的加速和 5.7 倍的能效提升。

Dec, 2023

研究面向 eFPGA 的资源高效中子 /γ 射线分类机器学习模型

实施机器学习模型于硬件上已取得了相当大的兴趣和进展，而该研究探索了电子可变程序逻辑阵列（eFPGA）在完全连接神经网络（fcNN）和增强决策树（BDT）模型实现方面的参数空间以及资源效率的权衡，以帮助制定一个作为测试芯片的一部分的 eFPGA 结构的规范。

Apr, 2024