Jul, 2023

MARS:在自适应多加速器系统上利用多层并行性优化 DNN 工作负载

TL;DR基于深度神经网络的多加速器系统中,选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题,我们提出了一个名为 MARS 的新型映射框架,可以执行计算感知的加速器选择,并应用通信感知的分片策略来最大化并行性,实验证明,与基准相比,MARS 可以平均减少 32.2% 的延迟,并且相对于对应的最先进方法,可以减少 59.4% 的异构模型的延迟。