可微分的离散事件模拟用于排队网络控制

Sep, 2024

可微分的离散事件模拟用于排队网络控制

Differentiable Discrete Event Simulation for Queuing Network Control

Ethan Che, Jing Dong, Hongseok Namkoong

TL;DR本研究解决了排队网络控制面临的高随机性和大状态空间等挑战，提出了一种基于可微分离散事件模拟的可扩展政策优化框架。通过实施精心设计的平滑技术，研究表明该方法在大规模排队网络中可以显著提高样本效率，达到比现有强化学习方法高出50-1000倍的表现。

Abstract

Queuing network control is essential for managing congestion in job-processing systems such as service systems, communication networks, and manufacturing processes. Despite growing interest in applying Reinforcement Learning (RL) techniques, →

发现论文，激发创造

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的Proximal Policy Optimization算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

队列学习：一种提供服务质量的强化学习方法

本文介绍了一种基于强化学习的服务速率控制器，该控制器通过使用深度确定性策略梯度(DDPG)算法作为函数，将服务速率(行动)学习为串联服务系统中队列长度(状态)的函数，并提供关于系统端到端延迟的概率性保证。

Jan, 2021

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的PPO算法对处理网络控制问题进行了解决。

May, 2022

多类流体排队网络的最优控制：一种机器学习方法

我们提出了一种机器学习方法来解决多类流体排队网络（MFQNETs）的最优控制问题，并提供了明确和深入的控制策略。我们证明了MFQNET控制问题存在一种阈值类型的最优策略，其中阈值曲线是通过原点的超平面。我们使用具有超平面分割的最优分类树（OCT-H）来学习MFQNETs的最优控制策略。我们使用MFQNET控制问题的数值解作为训练集，并将OCT-H应用于学习明确的控制策略。实验结果报告了高达33个服务器和99个类别的实验结果，表明学习到的策略在测试集上达到100％的准确率。虽然在大型网络中，OCT-H的离线训练可能需要几天时间，但在线应用只需要毫秒级的时间。

Jul, 2023

部分可观察排队网络中的最优入场控制学习

我们提出了一种高效的强化学习算法，用于在部分可观察排队网络中学习最佳的入场控制策略，其中部分可观察性是指只有网络的到达和离开时间是可观察的，最优性是指在无限时间内的平均持有/拒绝成本。

Aug, 2023

半满－维特制度下多类别队列的动态调度：高维问题的计算方法

电话呼叫中心的多类队列模型，通过扩散控制问题和深度神经网络技术，提出了解决呼叫中心调度问题的政策，并对其性能进行了评估。

Nov, 2023

基于局部李雅普诺夫条件的得分感知策略梯度方法与性能保证：应用于产品形式随机网络和排队系统

通过利用底层MDP的结构，引入了一种新的梯度估计器家族——SAGEs，它们可以在无需依赖于值函数估计的情况下估计策略梯度，相较于经典的actor-critic等策略梯度方法具有更快的收敛速度，并通过数值比较证明了其优越性。

Dec, 2023

异构排队系统作业路由的高效强化学习

我们提出了一种基于低维度软阈值策略参数化的高效策略梯度算法ACHQ，利用底层排队结构，针对中心队列向异构服务器系统中任务迅速路由的问题。我们为一般情况提供了静态点收敛保证，并且尽管参数化维度较低，但证明了ACHQ对于两个服务器的特殊情况收敛于近似全局最优解。模拟结果表明，与贪婪策略相比，ACHQ在预期响应时间上提高了约30%。

Feb, 2024

在线随机排队网络优化的干预辅助策略梯度方法：技术报告

在线深度强化学习控制（ODRLC）是一种可替代传统方法的方法，它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架，结合了神经网络的学习能力和传统控制策略的稳定性，以解决随机队列网络中无界状态空间的挑战。通过实验证明，我们的提出算法优于传统控制方法和之前的ODRLC算法。

Apr, 2024

带有赌博反馈的对抗网络优化：在非平稳多跳网络中最大化效用

本文关注非平稳多跳网络中的对抗网络优化问题，解决了现有算法无法处理网络条件变化和预见性不足的局限。提出的`UMO2`算法结合了在线学习与李雅普诺夫分析，确保网络稳定性并在赌博反馈下实现效用最大化，显著提高了调度效率。该研究在在线学习领域提供了新见解，具有独立研究的潜力。

Aug, 2024