基于 FPGA 的深度神经网络在粒子物理中的快速推断
本研究对于 FPGA 卡驱动的机器学习算法的使用进行探讨,并证明在高亮度程序触发策略和事件选择中,这种算法具有较高的准确性和较低的推理时间。
Jul, 2023
本文提出了一种基于 FPGA 的资源高效的 GNN 架构,用于低延迟的粒子轨迹重建,该架构在 Xilinx UltraScale + VU9P 上的结果表明,相比于 CPU 和 GPU,性能提高了 1625X 和 1574X。
Jun, 2023
通过对基于机器学习的算法在可编程门阵列上进行准确的喷注风味分类的研究,展示了在输入规模和算法选择方面的延迟和资源消耗如何扩展,并提供了一种用于在 CERN LHC 的高亮度阶段进行标记的模型的初始设计。通过量化感知训练和高效硬件实现,我们展示了可以以较低的计算资源成本实现复杂架构(例如深度集合和交互网络)的 O(100)纳秒推理。
Feb, 2024
本文介绍了用于解决 SLAC 数据实验的高速探测器的存储问题的解决方案 —— 用机器学习技术在边缘计算设备上实现实时数据处理的 SLAC 神经网络库框架,该框架采用基于 FPGA 的加速器来实现 ML 解决方案,并且支持所有权重的 RTL 重训练和恢复。
May, 2023
本文介绍了在可编程门阵列 (FPGA) 上使用 hls4ml 工具实现变压器架构的高效实现。通过使用变压器模型在解决各种问题方面的有效性的证明,其在粒子物理实验触发器中的应用成为了一个引人关注的课题。在这项工作中,我们实现了变压器模型的关键组成部分,如多头注意力和 softmax 层。为了评估我们的实现的有效性,我们专注于一个粒子物理学喷注风味标记问题,并使用了一个公共数据集。我们在 Xilinx UltraScale+ FPGA 上记录了低于 2 微秒的延迟,该延迟符合 CERN 大型强子对撞机实验的硬件触发器要求。
Feb, 2024
实施机器学习模型于硬件上已取得了相当大的兴趣和进展,而该研究探索了电子可变程序逻辑阵列(eFPGA)在完全连接神经网络(fcNN)和增强决策树(BDT)模型实现方面的参数空间以及资源效率的权衡,以帮助制定一个作为测试芯片的一部分的 eFPGA 结构的规范。
Apr, 2024
使用嵌入式可编程门阵列(eFPGA)技术在应用特定集成电路(ASIC)的设计中实现可重构逻辑,将 ASIC 的低功耗和高效性与 FPGA 的易配置性相结合,尤其适用于下一代对撞机实验数据流中的机器学习用例。通过开源框架 “FABulous”,设计了使用 130 纳米和 28 纳米 CMOS 技术节点的 eFPGA,并经过测试进行了验证。通过模拟高能粒子经过硅像素传感器和基于机器学习的分类器的测试,验证了 eFPGA 作为前端读出芯片的能力。通过在 eFPGA 上成功合成和配置传感器数据的降维算法,以完美准确度复现了预期算法结果。讨论了对 eFPGA 技术的进一步发展以及其在对撞机探测器读出中的应用。
Apr, 2024
本文综述以硬件加速为视角,探讨深度学习及可编程门阵列的发展趋势和革新,旨在讨论 FPGAs 在更好地为深度学习社区提供服务方面的最佳应用。
Feb, 2016
利用 Hessian-aware quantization (HAWQ) 来量化神经网络(NNs),Quantized Open Neural Network Exchange(QONNX)中间表示和 hls4ml 到 FPGA 和 ASIC 固件的工具流程将 NNs 高效地实现在硬件上,并在粒子物理应用程序中展示了这个工作流程,包括使用混合精度 NN 分类器对 HLC 质子 - 质子碰撞中的高动量粒子喷流进行优化。
Apr, 2023
本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法,旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要,其中资源严格限制,需要一种纳秒级的推理和降低 50 倍的资源消耗。
Jun, 2020