可微分的离散事件模拟用于排队网络控制
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的Proximal Policy Optimization算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020
本文介绍了一种基于强化学习的服务速率控制器,该控制器通过使用深度确定性策略梯度(DDPG)算法作为函数,将服务速率(行动)学习为串联服务系统中队列长度(状态)的函数,并提供关于系统端到端延迟的概率性保证。
Jan, 2021
探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的PPO算法对处理网络控制问题进行了解决。
May, 2022
我们提出了一种机器学习方法来解决多类流体排队网络(MFQNETs)的最优控制问题,并提供了明确和深入的控制策略。我们证明了MFQNET控制问题存在一种阈值类型的最优策略,其中阈值曲线是通过原点的超平面。我们使用具有超平面分割的最优分类树(OCT-H)来学习MFQNETs的最优控制策略。我们使用MFQNET控制问题的数值解作为训练集,并将OCT-H应用于学习明确的控制策略。实验结果报告了高达33个服务器和99个类别的实验结果,表明学习到的策略在测试集上达到100%的准确率。虽然在大型网络中,OCT-H的离线训练可能需要几天时间,但在线应用只需要毫秒级的时间。
Jul, 2023
我们提出了一种高效的强化学习算法,用于在部分可观察排队网络中学习最佳的入场控制策略,其中部分可观察性是指只有网络的到达和离开时间是可观察的,最优性是指在无限时间内的平均持有/拒绝成本。
Aug, 2023
通过利用底层MDP的结构,引入了一种新的梯度估计器家族——SAGEs,它们可以在无需依赖于值函数估计的情况下估计策略梯度,相较于经典的actor-critic等策略梯度方法具有更快的收敛速度,并通过数值比较证明了其优越性。
Dec, 2023
我们提出了一种基于低维度软阈值策略参数化的高效策略梯度算法ACHQ,利用底层排队结构,针对中心队列向异构服务器系统中任务迅速路由的问题。我们为一般情况提供了静态点收敛保证,并且尽管参数化维度较低,但证明了ACHQ对于两个服务器的特殊情况收敛于近似全局最优解。模拟结果表明,与贪婪策略相比,ACHQ在预期响应时间上提高了约30%。
Feb, 2024
在线深度强化学习控制(ODRLC)是一种可替代传统方法的方法,它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架,结合了神经网络的学习能力和传统控制策略的稳定性,以解决随机队列网络中无界状态空间的挑战。通过实验证明,我们的提出算法优于传统控制方法和之前的ODRLC算法。
Apr, 2024
本文关注非平稳多跳网络中的对抗网络优化问题,解决了现有算法无法处理网络条件变化和预见性不足的局限。提出的`UMO2`算法结合了在线学习与李雅普诺夫分析,确保网络稳定性并在赌博反馈下实现效用最大化,显著提高了调度效率。该研究在在线学习领域提供了新见解,具有独立研究的潜力。
Aug, 2024