Sep, 2019

PREMA:一种用于可抢占神经处理单元的预测性多任务调度算法

TL;DR本篇研究提出了一种利用可抢占神经处理单元(NPU)和预测性多任务调度器满足高优先级推理的延迟需求,同时保持高吞吐率的方法,通过评估可使 NPU 可抢占的机制和利用它们实现调度目标的策略,表明采用可抢占 NPU 多任务处理技术可以实现平均 7.8 倍、1.4 倍和 4.8 倍的延迟、吞吐量和 SLA 满意度的提高。