AAAIMar, 2022

通过状态抽象进行多类队列的时变到达率最优入场控制

TL;DR本文提出一个新的排队问题,该问题涉及价格、不同的价格分布和服务速率的任务,提出了一种基于强化学习的方法。实验表明,该方法适用于金融欺诈检测。