Aug, 2023

部分可观察排队网络中的最优入场控制学习

TL;DR我们提出了一种高效的强化学习算法,用于在部分可观察排队网络中学习最佳的入场控制策略,其中部分可观察性是指只有网络的到达和离开时间是可观察的,最优性是指在无限时间内的平均持有/拒绝成本。