ACCL+:基于 FPGA 的分布式应用集合引擎
基于低功耗的内嵌 FPGA 提出的分布式系统,可用于边缘计算应用,通过分布式调度优化深度学习负载以获得最佳性能,同时可以在多种配置下评估和管理神经网络工作负载。
May, 2023
本文提出了可组合、并行和流水线 (CPP) 微体系结构作为加速器设计的模板,并介绍了一种分析模型来捕捉 CPP 微体系结构的不同设计配置之间的性能和资源权衡,为快速设计空间探索奠定了基础,最终开发了 AutoAccel 框架来自动生成加速器设计。
Jul, 2018
在现代 DNN 模型不断增大的同时,加速器之间的集体通信(allreduce 等)成为一个重要的性能瓶颈。在今天高度多样化和异构的网络结构下,设计高效的通信调度是具有挑战性的。本文提出了 ForestColl,一种为任何网络拓扑生成高效调度的工具。ForestColl 构建广播 / 聚合的生成树作为通信调度,实现了理论上的最小网络拥塞。其调度生成在强多项式时间内运行,并具有高度可扩展性。在多集群 AMD MI250 和 NVIDIA A100 平台上评估了 ForestColl。与供应商自己优化的通信库 RCCL 和 NCCL 相比,ForestColl 的调度性能提高了多达 52%。ForestColl 还在生成调度效率上超过其他最先进的调度生成技术,生成的调度更加高效,在调度生成速度上有数量级的提升。
Feb, 2024
通过使用基于 FPGA 的 AI 智能网卡加速所有约减操作并通过数据压缩优化网络带宽利用率,该论文提出了一种新的分布式 AI 培训系统,为计算密集型张量操作释放了系统的计算资源,并提高了节点间通信效率。在验证分析模型的同时,该方法可将培训性能提高 1.6 倍至 6 个节点,而在 32 个节点时可能有 2.5 倍的性能提升。
Apr, 2022
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构,通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略,优化了 GCN 的计算效率,并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。
Aug, 2023
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文提出了一种可扩展的加速器体系结构 DLAU,通过在 FPGA 上实现,使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗,实验结果表明 DLAU 加速器与 Intel Core2 处理器相比,速度提高了 36.1 倍,功耗为 234mW。
May, 2016
本文介绍了一项基于机器学习的平台 ACE,通过它可以处理不断增加的边缘和云资源,用户透明的服务以及越来越多的智能工作负载。此平台可用于边缘云协作智能应用程序的开发和部署,以提高性能优化的效率。
Mar, 2022
基于 AMD Versal ACAP 架构,利用数据稀疏性加速图神经网络(GNN)推理,通过自定义硬件模块在可编程逻辑(PL)上执行稀疏计算,利用 AI Engine(AIE)高效计算稠密计算部分,并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算,从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能,平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x,对于图卷积网络(GCN)推理,相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。
Aug, 2023