使用强化学习实现公平稳定的 DNN 多租户多加速器系统实时调度

Feb, 2024

使用强化学习实现公平稳定的 DNN 多租户多加速器系统实时调度

Towards Fair and Firm Real-Time Scheduling in DNN Multi-Tenant Multi-Accelerator Systems via Reinforcement Learning

Enrico Russo, Francesco Giulio Blanco, Maurizio Palesi, Giuseppe Ascia, Davide Patti...

TL;DR这篇论文解决了云服务中管理服务质量（QoS）的关键挑战，着重研究了个别租户期望和不同服务水平指标（SLI）的细微差别。它引入了一种新的方法，利用深度强化学习在多租户、多加速器的云环境中进行租户特定的 QoS 管理。所选择的 SLI，即截止时间满足率，允许客户为每个服务请求量身定制服务质量。提出了一种新颖的在线调度算法，针对多加速器系统中的深度神经网络，着重保证租户层面和模型特定的 QoS 水平，并考虑实时约束。

Abstract

This paper addresses the critical challenge of managing Quality of Service (qos) in cloud services, focusing on the nuances of individual tenant expectations and varying Service Level Indicators (SLIs). It introd

qos cloud services deep reinforcement learning multi-tenant environments online scheduling algorithm

发现论文，激发创造

基于深度强化学习的深度神经网络多租户多加速器系统的在线调度策略

当前，云服务外包 DNNs 的趋势日益增长。本文介绍了一种针对多租户环境中 DNNs 在线调度的低开销深度强化学习算法 RELMAS，考虑了加速器的数据流异构性和内存带宽竞争问题，提高了服务提供商的硬件利用率并优化了服务水平协议满意率。在包含 Simba 和 Eyeriss 子加速器实例的多异构加速器系统上，与最先进的调度技术相比，在不同工作负载场景下，SLA 满意率提高了 173％，能源开销仅增加了不到 1.5％。

Apr, 2024

加强基于深度学习和强化学习技术的 Kubernetes 自动调度以优化大规模云计算

基于深度学习和强化学习的大规模云计算系统自动任务调度方案的研究和验证。

Feb, 2024

多资源多机器作业调度的深度强化学习

本文在最小化数据中心网络中的工作调度时间方面进行了深入研究，提出了一种基于深度强化学习的改进方法并将其扩展到多个服务器群集，结果表明，相比于传统的资源分配算法，深度强化学习方法在各种复杂环境中有着出色的性能表现。

Nov, 2017

队列学习：一种提供服务质量的强化学习方法

本文介绍了一种基于强化学习的服务速率控制器，该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数，将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数，并提供关于系统端到端延迟的概率性保证。

Jan, 2021

多业务网络中基于 QoS 限制的资源分配的深度强化学习

本文旨在研究一种利用强化学习算法在无线多业务系统中处理无线电资源分配问题的方法，通过在本地环境中与局部互动来寻找策略，实现了关于 9LTE 系统满足保证和 QoS 约束的无线资源分配。此外，通过计算模拟，本文与文献中的最新解决方案进行比较，并展示了后者在吞吐量和故障率方面近乎最优的性能。

Mar, 2020

面向延迟的物联网任务调度的深度强化学习在空天地一体化网络中的应用

本文旨在设计一种任务调度策略，以最小化所有任务的离线和计算延迟，同时满足无人机能源容量约束下的延迟导向物联网服务需求，并考虑到任务到达动态变化的情况，提出了基于风险敏感的强化学习算法来解决能耗风险约束下的决策问题。

Oct, 2020

基于多智能体强化学习的地理分布数据中心可持续负载调度

本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法，通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略，从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比，我们的方法提高了系统效用，最高可达 28.6％。

Apr, 2023

云计算中可延迟工作负载的在线调度的先进强化学习框架

云计算平台中的高效资源利用与完美用户体验通常相互冲突。本文提出了一种名为 “云中可延迟作业在线调度” 的在线可延迟工作调度方法，采用深度强化学习模型学习调度策略，并利用多个辅助任务提供更好的状态表示和改进模型性能，从而在在线环境中合理安排部署计划，实现用户等待时间短、平台资源利用率高的目标。所提出的方法在公共数据集上进行了验证并展示了卓越的性能。

Jun, 2024

ReinWiFi: WiFi 网络应用层 QoS 优化的基于强化学习的框架

提出并实现了一种基于强化学习的调度框架，用于优化受到未知干扰影响的实际无线局域网（WLAN）的应用层服务质量（QoS）。通过调整争用窗口大小和应用层吞吐量限制，联合调度具有文件传递和对延迟敏感通信的应用层任务，如屏幕投射，以优化它们的 QoS，包括文件传递的吞吐量和对延迟敏感通信的往返时间。

May, 2024

MetaNet: 云环境中自动化动态调度策略的选择

本研究旨在使用元模型 MetaNet 来解决在线动态选择调度策略的问题，以优化任务调度和执行成本。相比于现有的深度学习调度器，MetaNet 能使执行成本、能源消耗、响应时间和服务水平协议的违规率分别提高 11、43、8 和 13％左右。

May, 2022