Jun, 2019

离散规范化优势函数的深度强化学习用于网络切片资源管理

TL;DR本文采用离散归一化优势函数将深度强化学习算法应用于网络切片中资源管理的问题,将 Q - 值函数分离,使用确定性策略梯度下降算法避免不必要的计算,并利用 k 最近邻算法在离散空间中快速找到有效行动,提高网络切片的收敛速度。