Feb, 2024

使用强化学习实现公平稳定的 DNN 多租户多加速器系统实时调度

TL;DR这篇论文解决了云服务中管理服务质量(QoS)的关键挑战,着重研究了个别租户期望和不同服务水平指标(SLI)的细微差别。它引入了一种新的方法,利用深度强化学习在多租户、多加速器的云环境中进行租户特定的 QoS 管理。所选择的 SLI,即截止时间满足率,允许客户为每个服务请求量身定制服务质量。提出了一种新颖的在线调度算法,针对多加速器系统中的深度神经网络,着重保证租户层面和模型特定的 QoS 水平,并考虑实时约束。