基于深度强化学习的深度神经网络多租户多加速器系统的在线调度策略

Apr, 2024

基于深度强化学习的深度神经网络多租户多加速器系统的在线调度策略

Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems

PDF

Francesco G. Blanco, Enrico Russo, Maurizio Palesi, Davide Patti, Giuseppe Ascia...

TL;DR当前，云服务外包 DNNs 的趋势日益增长。本文介绍了一种针对多租户环境中 DNNs 在线调度的低开销深度强化学习算法 RELMAS，考虑了加速器的数据流异构性和内存带宽竞争问题，提高了服务提供商的硬件利用率并优化了服务水平协议满意率。在包含 Simba 和 Eyeriss 子加速器实例的多异构加速器系统上，与最先进的调度技术相比，在不同工作负载场景下，SLA 满意率提高了 173％，能源开销仅增加了不到 1.5％。

Abstract

Currently, there is a growing trend of outsourcing the execution of dnns to cloud services. For service providers, managing multi-tenancy

outsourcing dnns cloud services multi-tenant environments relmas

发现论文，激发创造

使用强化学习实现公平稳定的 DNN 多租户多加速器系统实时调度

这篇论文解决了云服务中管理服务质量（QoS）的关键挑战，着重研究了个别租户期望和不同服务水平指标（SLI）的细微差别。它引入了一种新的方法，利用深度强化学习在多租户、多加速器的云环境中进行租户特定的 QoS 管理。所选择的 SLI，即截止时间满足率，允许客户为每个服务请求量身定制服务质量。提出了一种新颖的在线调度算法，针对多加速器系统中的深度神经网络，着重保证租户层面和模型特定的 QoS 水平，并考虑实时约束。

Feb, 2024

多资源多机器作业调度的深度强化学习

本文在最小化数据中心网络中的工作调度时间方面进行了深入研究，提出了一种基于深度强化学习的改进方法并将其扩展到多个服务器群集，结果表明，相比于传统的资源分配算法，深度强化学习方法在各种复杂环境中有着出色的性能表现。

Nov, 2017

加强基于深度学习和强化学习技术的 Kubernetes 自动调度以优化大规模云计算

基于深度学习和强化学习的大规模云计算系统自动任务调度方案的研究和验证。

Feb, 2024

使用深度强化学习优化内存映射

通过采用强化学习技术，本文提出了一个解决编译机器学习程序中内存映射问题的新方法，称之为 mallocMuZero 算法，并将其应用在 ML 加速器上以缩短执行时间，表现优于目前的默认求解器。

May, 2023

MARS：在自适应多加速器系统上利用多层并行性优化 DNN 工作负载

基于深度神经网络的多加速器系统中，选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题，我们提出了一个名为 MARS 的新型映射框架，可以执行计算感知的加速器选择，并应用通信感知的分片策略来最大化并行性，实验证明，与基准相比，MARS 可以平均减少 32.2% 的延迟，并且相对于对应的最先进方法，可以减少 59.4% 的异构模型的延迟。

Jul, 2023

为数据处理集群学习调度算法

本文介绍 Decima，它可以通过机器学习技术自动生成高效的特定工作量调度策略，这种方法可以显著提高数据处理作业的整体处理效率。

Oct, 2018

语义感知传输调度：基于单调性的深度强化学习方法

本文研究了语义感知下的调度问题，利用深度强化学习算法解决大规模系统中的最优策略问题，并通过实验表明，相较于现有算法，所提出的算法能够显著减少训练时间并提高训练性能。

May, 2023

系统级芯片的深度强化学习：神话与现实

通过与非神经、启发式任务调度器的比较，本文通过广泛实验研究和深度强化学习探究了基于 DRL 的神经调度器在 SoC 资源分配领域的实现可能性，并提出了 Eclectic Interaction Matching 技术以改进现有的神经调度器

Jul, 2022

基于深度强化学习的云资源分配和功耗管理的层级框架

研究提出一种基于深度强化学习的层次化框架，用于云计算系统中的资源分配和电源管理问题，采用自动编码器和权重共享结构，以解决高维状态空间问题，采用 LSTM 建模工作负载预测，并采用分布式方式操作的无模型 RL 电源管理器处理本地部分问题。

Mar, 2017

MetaNet: 云环境中自动化动态调度策略的选择

本研究旨在使用元模型 MetaNet 来解决在线动态选择调度策略的问题，以优化任务调度和执行成本。相比于现有的深度学习调度器，MetaNet 能使执行成本、能源消耗、响应时间和服务水平协议的违规率分别提高 11、43、8 和 13％左右。

May, 2022