ACCL+：基于 FPGA 的分布式应用集合引擎

Dec, 2023

ACCL+：基于 FPGA 的分布式应用集合引擎

ACCL+: an FPGA-Based Collective Engine for Distributed Applications

Zhenhao He, Dario Korolija, Yu Zhu, Benjamin Ramhorst, Tristan Laan...

TL;DR为了方便开发分布式 FPGA 应用，本文提出了一种开源的多功能基于 FPGA 的集体通信库 ACCL+，可以作为 CPU 应用的集体卸载引擎，同时通过两个应用案例展示其在分布式深度学习推荐推理中的关键作用和高效性能。

Abstract

fpgas are increasingly prevalent in cloud deployments, serving as Smart NICs or network-attached accelerators. Despite their potential, developing distributed FPGA-accelerated applications remains cumbersome due to the lack of appropriate infrastructure and communication abstractions.

fpgas distributed applications collective communication cpu applications fpga-based deep-learning

发现论文，激发创造

可重构分布式 FPGA 集群设计用于深度学习加速器

基于低功耗的内嵌 FPGA 提出的分布式系统，可用于边缘计算应用，通过分布式调度优化深度学习负载以获得最佳性能，同时可以在多种配置下评估和管理神经网络工作负载。

May, 2023

AutoAccel：具有组合、并行和流水线架构的自动化加速器生成和优化

本文提出了可组合、并行和流水线 (CPP) 微体系结构作为加速器设计的模板，并介绍了一种分析模型来捕捉 CPP 微体系结构的不同设计配置之间的性能和资源权衡，为快速设计空间探索奠定了基础，最终开发了 AutoAccel 框架来自动生成加速器设计。

Jul, 2018

ForestColl：异构网络纺织品上的高效集体通信

在现代 DNN 模型不断增大的同时，加速器之间的集体通信（allreduce 等）成为一个重要的性能瓶颈。在今天高度多样化和异构的网络结构下，设计高效的通信调度是具有挑战性的。本文提出了 ForestColl，一种为任何网络拓扑生成高效调度的工具。ForestColl 构建广播 / 聚合的生成树作为通信调度，实现了理论上的最小网络拥塞。其调度生成在强多项式时间内运行，并具有高度可扩展性。在多集群 AMD MI250 和 NVIDIA A100 平台上评估了 ForestColl。与供应商自己优化的通信库 RCCL 和 NCCL 相比，ForestColl 的调度性能提高了多达 52％。ForestColl 还在生成调度效率上超过其他最先进的调度生成技术，生成的调度更加高效，在调度生成速度上有数量级的提升。

Feb, 2024

用基于 FPGA 的智能网卡实现分布式 AI 训练系统的可扩展性

通过使用基于 FPGA 的 AI 智能网卡加速所有约减操作并通过数据压缩优化网络带宽利用率，该论文提出了一种新的分布式 AI 培训系统，为计算密集型张量操作释放了系统的计算资源，并提高了节点间通信效率。在验证分析模型的同时，该方法可将培训性能提高 1.6 倍至 6 个节点，而在 32 个节点时可能有 2.5 倍的性能提升。

Apr, 2022

GraphACT: 在 CPU-FPGA 异构平台上加速 GCN 训练

通过 CPU-FPGA 异构系统，我们设计了一种新型加速器，通过算法 - 架构协同优化，提升 Graph Convolutional Networks 训练的速度。我们采用子图算法，优化特征传播，并提出基于 systolic array 的设计，实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上，我们的设计比现有多核平台的最新实现快一个数量级，且几乎没有精度损失。

Dec, 2019

Accel-GCN：图卷积网络的高性能 GPU 加速器设计

Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构，通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略，优化了 GCN 的计算效率，并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。

Aug, 2023

Arria 10 上的 OpenCL (TM) 深度学习加速器

利用深度学习加速器（DLA）和 Winograd 变换技术，我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能，比 FPGA 上最先进的技术快 10 倍，同时也具有 5.8 倍的更高效率，并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。

Jan, 2017

DLAU：一种在 FPGA 上可扩展的深度学习加速器单元

本文提出了一种可扩展的加速器体系结构 DLAU，通过在 FPGA 上实现，使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗，实验结果表明 DLAU 加速器与 Intel Core2 处理器相比，速度提高了 36.1 倍，功耗为 234mW。

May, 2016

ACE: 面向应用为中心的边缘 - 云协同智能

本文介绍了一项基于机器学习的平台 ACE，通过它可以处理不断增加的边缘和云资源，用户透明的服务以及越来越多的智能工作负载。此平台可用于边缘云协作智能应用程序的开发和部署，以提高性能优化的效率。

Mar, 2022

利用 Versal 体系结构的芯片内异构性加速 GNN 推理

基于 AMD Versal ACAP 架构，利用数据稀疏性加速图神经网络（GNN）推理，通过自定义硬件模块在可编程逻辑（PL）上执行稀疏计算，利用 AI Engine（AIE）高效计算稠密计算部分，并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算，从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能，平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x，对于图卷积网络（GCN）推理，相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。

Aug, 2023