基于强化学习的多源 DASH 自适应和调度方法
在 Facebook 视频流平台,我们评估最新提出的基于 RL 的自适应比特率算法,采用可扩展的神经网络架构设计,利用贝叶斯优化进行奖励塑形,优化用户体验目标,以应对网络环境的随机性方差。在全球范围内超过 3000 万次视频流会话中,我们的 RL 方法优于现有的人工设计的算法。
Aug, 2020
通过使用学习型策略来确定在视频流媒体环境中哪些客户端应该动态优先考虑,以提升用户体验和增加 30% 的 QoE,并使用低计算复杂度的结构化策略进行快速学习。
Apr, 2024
这篇论文解决了云服务中管理服务质量(QoS)的关键挑战,着重研究了个别租户期望和不同服务水平指标(SLI)的细微差别。它引入了一种新的方法,利用深度强化学习在多租户、多加速器的云环境中进行租户特定的 QoS 管理。所选择的 SLI,即截止时间满足率,允许客户为每个服务请求量身定制服务质量。提出了一种新颖的在线调度算法,针对多加速器系统中的深度神经网络,着重保证租户层面和模型特定的 QoS 水平,并考虑实时约束。
Feb, 2024
本文研究了无线网络中自适应视频流调度策略的优化设计问题,其中采用了 “分而治之” 的方法和 Lyapunov Drift Plus Penalty 方法,提出了两个子策略解决拥塞控制和传输调度问题,并提出了一种自适应估计最大排队延迟的方法。
Apr, 2013
本文提出了一种 Digital Twin 辅助的 RL 任务调度方法,在探索效率上通过 DT 显著提高 RL 的收敛速度,使用 DT 模拟智能体做出的不同决策,从而实现探索多种行动并行交互的效果,提高了更快的数据分析能力和收敛效果。
Aug, 2022
本文提出了一种利用深度强化学习的方法来寻找最适宜的并行 TCP 流数量,以使网络带宽得到合理利用,并确保在争用传输之间的公平性。与规则和贪心算法相比,我们的 RL 算法可以在未知网络情况下动态发现和使并行 TCP 流适应不同的网络环境。研究证明,我们的算法可以更快地找到接近最优的解决方案,同时提高达 15% 的吞吐量,并避免网络拥塞和资源浪费。
Nov, 2022
本文采用深度强化学习方法对动态视频分割中的在线关键帧决策过程建模,从专家信息和过程最大化全局回报中学习有效的调度策略,最终在人脸视频等场景中取得了优异的性能表现。
Jul, 2019
当前,云服务外包 DNNs 的趋势日益增长。本文介绍了一种针对多租户环境中 DNNs 在线调度的低开销深度强化学习算法 RELMAS,考虑了加速器的数据流异构性和内存带宽竞争问题,提高了服务提供商的硬件利用率并优化了服务水平协议满意率。在包含 Simba 和 Eyeriss 子加速器实例的多异构加速器系统上,与最先进的调度技术相比,在不同工作负载场景下,SLA 满意率提高了 173%,能源开销仅增加了不到 1.5%。
Apr, 2024
通过深度强化学习来最大化考虑到精度和延迟之间的权衡,从而为流式感知提供一种新的方法。我们的代理可以跨多个决策维度学习一种竞争策略,在公共数据集上胜过最先进的策略。
Jun, 2021
本文提出一种基于多智能体框架的深度强化学习方法以最小化整体平均传输延迟,通过与三种不同的缓存策略对比,结果显示出该算法对于不同环境的能力更强,性能也更好。
May, 2019