队列学习：一种提供服务质量的强化学习方法

AAAIJan, 2021

队列学习：一种提供服务质量的强化学习方法

Queue-Learning: A Reinforcement Learning Approach for Providing Quality of Service

Majid Raeis, Ali Tizghadam, Alberto Leon-Garcia

TL;DR本文介绍了一种基于强化学习的服务速率控制器，该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数，将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数，并提供关于系统端到端延迟的概率性保证。

Abstract

end-to-end delay is a critical attribute of quality of service (QoS) in application domains such as cloud computing and computer networks. This metric is particularly important in tandem service systems, where th

end-to-end delay quality of service reinforcement learning service-rate control probabilistic guarantees

发现论文，激发创造

远程操作驾驶场景中的 PQoS 强化学习框架

本文提出了一个基于强化学习的 PQoS 功能设计，重点是学习代理的奖励函数设计及将 QoS 估计转换为适当的对策，实现了在受控驾驶场景下最佳 QoS 和 QoE 性能。

Feb, 2022

异构排队系统作业路由的高效强化学习

我们提出了一种基于低维度软阈值策略参数化的高效策略梯度算法 ACHQ，利用底层排队结构，针对中心队列向异构服务器系统中任务迅速路由的问题。我们为一般情况提供了静态点收敛保证，并且尽管参数化维度较低，但证明了 ACHQ 对于两个服务器的特殊情况收敛于近似全局最优解。模拟结果表明，与贪婪策略相比，ACHQ 在预期响应时间上提高了约 30%。

Feb, 2024

使用强化学习实现公平稳定的 DNN 多租户多加速器系统实时调度

这篇论文解决了云服务中管理服务质量（QoS）的关键挑战，着重研究了个别租户期望和不同服务水平指标（SLI）的细微差别。它引入了一种新的方法，利用深度强化学习在多租户、多加速器的云环境中进行租户特定的 QoS 管理。所选择的 SLI，即截止时间满足率，允许客户为每个服务请求量身定制服务质量。提出了一种新颖的在线调度算法，针对多加速器系统中的深度神经网络，着重保证租户层面和模型特定的 QoS 水平，并考虑实时约束。

Feb, 2024

多业务网络中基于 QoS 限制的资源分配的深度强化学习

本文旨在研究一种利用强化学习算法在无线多业务系统中处理无线电资源分配问题的方法，通过在本地环境中与局部互动来寻找策略，实现了关于 9LTE 系统满足保证和 QoS 约束的无线资源分配。此外，通过计算模拟，本文与文献中的最新解决方案进行比较，并展示了后者在吞吐量和故障率方面近乎最优的性能。

Mar, 2020

在线随机排队网络优化的干预辅助策略梯度方法：技术报告

在线深度强化学习控制（ODRLC）是一种可替代传统方法的方法，它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架，结合了神经网络的学习能力和传统控制策略的稳定性，以解决随机队列网络中无界状态空间的挑战。通过实验证明，我们的提出算法优于传统控制方法和之前的 ODRLC 算法。

Apr, 2024

面向下一代车联网的分布式预测服务质量

本文研究了如何在车联网中实现预测服务质量（PQoS）的目标，通过强化学习代理设计来实现 PQoS。通过中心化，完全分布式和联邦学习等不同的学习方案，我们证明了去中心化学习和尤其是联邦学习在收敛时间和可靠性之间具有良好的权衡，这对隐私和复杂性方面具有积极的影响，并且在低延迟和可靠性的限制下确定了发送车载数据的最佳压缩级别。

Feb, 2023

数字孪生辅助高效边缘任务调度的强化学习

本文提出了一种 Digital Twin 辅助的 RL 任务调度方法，在探索效率上通过 DT 显著提高 RL 的收敛速度，使用 DT 模拟智能体做出的不同决策，从而实现探索多种行动并行交互的效果，提高了更快的数据分析能力和收敛效果。

Aug, 2022

ReinWiFi: WiFi 网络应用层 QoS 优化的基于强化学习的框架

提出并实现了一种基于强化学习的调度框架，用于优化受到未知干扰影响的实际无线局域网（WLAN）的应用层服务质量（QoS）。通过调整争用窗口大小和应用层吞吐量限制，联合调度具有文件传递和对延迟敏感通信的应用层任务，如屏幕投射，以优化它们的 QoS，包括文件传递的吞吐量和对延迟敏感通信的往返时间。

May, 2024

排队系统中学习成本的量化

对于排队系统中的学习问题，我们提出了一种新的度量标准 CLQ（Cost of Learning in Queueing），该度量标准量化了由于参数不确定性引起的时间平均队列长度的最大增加；我们针对单队列多服务器系统对 CLQ 进行了刻画，并将这些结果推广到多队列多服务器系统和排队网络中；在建立结果的同时，我们提出了一个统一的 CLQ 分析框架，该框架将 Lyapunov 和 bandit 分析相融合，具有相对独立的研究价值。

Aug, 2023

基于知识辅助的深度强化学习在 5G 调度器设计中的应用：从理论框架到实现

本论文提出了一种基于知识辅助的深度强化学习算法来设计第五代（5G）移动通信网络中的无线调度器，利用理论模型提出了理论的强化学习框架，在线离线相结合的方式实现了知识辅助 DDPG 算法，通过模拟实验和实际测试证明了该方法在收敛时间和 QoS 性能方面都优于现有方案，减少了 30%~50% 的数据包丢失率。

Sep, 2020