基于 FPGA 的粒子轨迹跟踪的低延迟边缘分类 GNN
介绍了基于 FPGA 进行神经网络推理的案例研究,其使用高级综合技术(HLS)构建机器学习模型,旨在为粒子物理学的高速实时事件处理提供支持,适用于很多场合,如寻找新的暗扇区粒子和测量希格斯玻色子等。
Apr, 2018
本研究对于 FPGA 卡驱动的机器学习算法的使用进行探讨,并证明在高亮度程序触发策略和事件选择中,这种算法具有较高的准确性和较低的推理时间。
Jul, 2023
通过对基于机器学习的算法在可编程门阵列上进行准确的喷注风味分类的研究,展示了在输入规模和算法选择方面的延迟和资源消耗如何扩展,并提供了一种用于在 CERN LHC 的高亮度阶段进行标记的模型的初始设计。通过量化感知训练和高效硬件实现,我们展示了可以以较低的计算资源成本实现复杂架构(例如深度集合和交互网络)的 O(100)纳秒推理。
Feb, 2024
实施机器学习模型于硬件上已取得了相当大的兴趣和进展,而该研究探索了电子可变程序逻辑阵列(eFPGA)在完全连接神经网络(fcNN)和增强决策树(BDT)模型实现方面的参数空间以及资源效率的权衡,以帮助制定一个作为测试芯片的一部分的 eFPGA 结构的规范。
Apr, 2024
通过高级综合技术,在 FPGA 上加速图神经网络推理,实现了高达 50.8 倍的加速和 423 倍的能量降低,与 CPU 基线相比,以及高达 5.16 倍的加速和 74.5 倍的能量降低,与 GPU 基线相比。
Sep, 2023
本文介绍了在可编程门阵列 (FPGA) 上使用 hls4ml 工具实现变压器架构的高效实现。通过使用变压器模型在解决各种问题方面的有效性的证明,其在粒子物理实验触发器中的应用成为了一个引人关注的课题。在这项工作中,我们实现了变压器模型的关键组成部分,如多头注意力和 softmax 层。为了评估我们的实现的有效性,我们专注于一个粒子物理学喷注风味标记问题,并使用了一个公共数据集。我们在 Xilinx UltraScale+ FPGA 上记录了低于 2 微秒的延迟,该延迟符合 CERN 大型强子对撞机实验的硬件触发器要求。
Feb, 2024
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
高能粒子碰撞中,基本碰撞产物通常会进一步衰变,形成具有预先未知多样性的树状分层结构。本文描述了一个典型的图神经网络(GNN)与深度全连接前馈神经网络体系结构的基准测试,并以在 CERN 的大型强子对撞机上在由质子 - 质子碰撞产生的带有顶夸克 - 反夸克对的最终态 X 的分类为物理案例进行对比。
Feb, 2024
利用 Hessian-aware quantization (HAWQ) 来量化神经网络(NNs),Quantized Open Neural Network Exchange(QONNX)中间表示和 hls4ml 到 FPGA 和 ASIC 固件的工具流程将 NNs 高效地实现在硬件上,并在粒子物理应用程序中展示了这个工作流程,包括使用混合精度 NN 分类器对 HLC 质子 - 质子碰撞中的高动量粒子喷流进行优化。
Apr, 2023
本文系统研究了多层异构边缘网络上的分布式图神经网络处理的成本优化,发现图神经网络的独特计算模式含有二次次模性质,在此基础上设计了基于图切割的迭代解法,并通过实验评估证明了其在成本降低、收敛速度等方面均具有优异性能。
Oct, 2022