Feb, 2022

PARIS和ELSA:一种用于可重构多GPU推理服务器的弹性调度算法

TL;DR本研究探讨了NVIDIA最新发布的Ampere GPU体系结构在云机器学习推理系统中的应用,并提出了一种适用于异构GPU服务器部署的复杂划分算法和弹性调度算法,实现低延迟和高GPU利用率的平衡。