Apr, 2024

在线随机排队网络优化的干预辅助策略梯度方法:技术报告

TL;DR在线深度强化学习控制(ODRLC)是一种可替代传统方法的方法,它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架,结合了神经网络的学习能力和传统控制策略的稳定性,以解决随机队列网络中无界状态空间的挑战。通过实验证明,我们的提出算法优于传统控制方法和之前的 ODRLC 算法。