May, 2022

深度强化学习下的网络控制处理

TL;DR探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的 PPO 算法对处理网络控制问题进行了解决。