GCV-Turbo: 基于 FPGA 的 GNN 计算机视觉任务的端到端加速
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
本文提出了用于深度学习框架的全栈编译器 DNNVM,通过优化图表现形式、循环和数据布局、关键算法和支持验证等,将复杂的 CNN 模型转换成有向无环图(XGraph)并利用启发式子图同构算法枚举所有潜在的融合机会,并在全计算图中搜索执行策略的最佳选择, 在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能,最终在 VGG 和 ResNet50 上达到了最先进的性能。
Feb, 2019
为了解决工业场景中超大图下,GNN 推理面临的可扩展性、一致性和冗余计算问题,本文提出了一种名为 InferTurbo 的可扩展系统,它基于类似於 Think-like-a-vertex 的 GAS(Gather-Apply-Scatter)模式和影子结点、部分聚集等策略来提高推理性能.
Jul, 2023
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
本文提出了 TuRF 框架,通过迁移学习将预训练模型适应于特定领域,替换普通卷积层并应用层融合来提高硬件设计性能,从而在 FPGA 上有效部署特定领域的应用,评估结果表明,与原始模型以及其他先前方法相比,TuRF 可以更好地实现 VGG-16 模型的性能,同时更准确和易于处理。
Sep, 2018
本研究在任务导向的角度下,综述了 GNN 与图 Transformer 在计算机视觉中的应用,根据输入数据的特征分为五个类别,并根据视觉任务,详细讨论了该问题所使用的不同基于 GNN 的方法、表现、挑战和未来方向。
Sep, 2022
本研究提出了一种基于 FPGA 的加速器,用于提高 Vision Transformers 的硬件效率,其中采用了可重构的架构以支持各种操作类型,并通过时分复用和流水线数据流来降低片外数据访问成本,实验证明其在 Xilinx ZCU102 FPGA 上能够显著优于之前的工作,达到了高达 780.2 GOPS 的吞吐量和 105.1 GOPS/W 的能效比。
Mar, 2024
该研究论文提出了 EvGNN,这是第一个用于边缘视觉的事件驱动 GNN 加速器,通过利用定向动态图、事件队列和新颖的层并行处理方案,实现了边缘视觉的低内存占用、超低延迟和高准确性,从而实现了实时的微秒级分辨率事件驱动视觉。
Apr, 2024
基于 AMD Versal ACAP 架构,利用数据稀疏性加速图神经网络(GNN)推理,通过自定义硬件模块在可编程逻辑(PL)上执行稀疏计算,利用 AI Engine(AIE)高效计算稠密计算部分,并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算,从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能,平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x,对于图卷积网络(GCN)推理,相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。
Aug, 2023
图神经网络在图结构数据上学习提供了一种新颖的机器学习范例,能够捕捉图数据中的复杂关系和依赖性,从而在社交网络分析、分子化学和网络安全等领域具有重要的影响。本论文旨在深入研究 GNN 与底层硬件的交互方式,并设计专用加速器和新型优化方法,以实现更高效和更快速的 GNN 计算。我们基于对 GNN 计算需求的特征化构建了先进的硬件加速器结构,同时扩展了对图神经网络领域中新型模型的探索,旨在提供不仅高性能而且能适应图计算发展的多功能加速器。
Dec, 2023