Dec, 2023

Opara:利用运算符并行性加速 GPU 上的 DNN 推断

TL;DR提出了一种资源感知和干扰感知的DNN操作并行调度框架Opara,以加速在GPU上进行DNN推理的执行。通过使用CUDA Streams和CUDA Graph来自动并行化多个DNN操作的执行,并调整操作在GPU上的启动顺序,以重叠计算密集型和内存密集型操作的执行,从而加速DNN推理。实验证明,Opara在代表性的DNN和基于Transformer的模型上效果优于默认的顺序执行的CUDA Graph和最先进的DNN操作并行系统,分别提高了1.68倍和1.29倍,同时运行时开销可接受。