AAAIJan, 2021

队列学习:一种提供服务质量的强化学习方法

TL;DR本文介绍了一种基于强化学习的服务速率控制器,该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数,将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数,并提供关于系统端到端延迟的概率性保证。