Feb, 2024

异构排队系统作业路由的高效强化学习

TL;DR我们提出了一种基于低维度软阈值策略参数化的高效策略梯度算法 ACHQ,利用底层排队结构,针对中心队列向异构服务器系统中任务迅速路由的问题。我们为一般情况提供了静态点收敛保证,并且尽管参数化维度较低,但证明了 ACHQ 对于两个服务器的特殊情况收敛于近似全局最优解。模拟结果表明,与贪婪策略相比,ACHQ 在预期响应时间上提高了约 30%。