Jul, 2020

深度强化学习控制排队网络

TL;DR本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。