通过状态抽象进行多类队列的时变到达率最优入场控制

AAAIMar, 2022

通过状态抽象进行多类队列的时变到达率最优入场控制

Optimal Admission Control for Multiclass Queues with Time-Varying Arrival Rates via State Abstraction

Marc Rigter, Danial Dervovic, Parisa Hassanzadeh, Jason Long, Parisa Zehtabi...

TL;DR本文提出一个新的排队问题，该问题涉及价格、不同的价格分布和服务速率的任务，提出了一种基于强化学习的方法。实验表明，该方法适用于金融欺诈检测。

Abstract

We consider a novel queuing problem where the decision-maker must choose to accept or reject randomly arriving tasks into a no buffer queue which are processed by $N$ identical servers. Each task has a price, which is a positive real number, and a class. Each class of task has a differ

queuing problem markov decision process state abstraction financial fraud service rate

发现论文，激发创造

具有马尔可夫调制到达的单服务器队列的动态服务速率控制

研究了具有有限状态 Markov 调制 Poisson 到达过程的单服务器排队系统的服务速率控制问题，证明最优服务速率随系统中顾客数量的增加而递增；更高的拥塞率需要更高的服务速率，但最优服务速率不一定单调于当前到达速率。同时，探讨了几种启发式方法，并且讨论了何时具有服务速率控制的调制泊松过程可作为启发式本身，以近似具有周期性非齐次泊松到达过程的系统的控制。

Jul, 2013

部分可观察排队网络中的最优入场控制学习

我们提出了一种高效的强化学习算法，用于在部分可观察排队网络中学习最佳的入场控制策略，其中部分可观察性是指只有网络的到达和离开时间是可观察的，最优性是指在无限时间内的平均持有 / 拒绝成本。

Aug, 2023

半满－维特制度下多类别队列的动态调度：高维问题的计算方法

电话呼叫中心的多类队列模型，通过扩散控制问题和深度神经网络技术，提出了解决呼叫中心调度问题的政策，并对其性能进行了评估。

Nov, 2023

从流到池：非独立同分布的动态定价

基于非策略单需求客户的最小二乘最优算法，此研究考虑到估值分布改变的情况，与交互式销售者进行重复互动。

Oct, 2023

面向带客户偏好的服务在线提前预定调度

本文研究预约服务的 Web 和移动应用程序，针对该类问题提出了带性能保证的新算法，并在纽约市卫生系统的预约数据上进行了测试。

May, 2018

大规模马尔可夫决策问题的线性规划

本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题，并使用线性规划和两种方法，即基于随机凸优化和基于约束采样的方法，将性能提高到与在低维策略类中的任何策略相比的最佳水平。

Feb, 2014

作为不安静的强盗的截止日期调度

研究了随机截止时间调度问题，提出了一种约束马尔科夫决策过程模型，该模型中工作随机到达，具有随机作业大小、奖励和完成期限。该服务提供商面临随机处理成本、凸非完成罚款和容量约束，以限制工作的同时处理。将随机截止时间调度问题建立为一个不安定的多臂赌博机问题，表明其可指标化。当处理成本为常量时，获得了 Whittle 指数的闭式表达式。获得了 Whittle 指数策略的最优解上限，并表明随着职位到达率和可用处理器数量同时增加到无限大，上限收敛于零。

Oct, 2016

具有随机到达时间的非参数随机序列分配

该论文提出一种名为 NPSA 的算法，用于解决随机到达工作的问题。该算法在信号弱的情况下也能保证期望收益时近最优的，同时在合成数据和公共欺诈检测数据集上取得了显著的成果。

Jun, 2021

多类流体排队网络的最优控制：一种机器学习方法

我们提出了一种机器学习方法来解决多类流体排队网络（MFQNETs）的最优控制问题，并提供了明确和深入的控制策略。我们证明了 MFQNET 控制问题存在一种阈值类型的最优策略，其中阈值曲线是通过原点的超平面。我们使用具有超平面分割的最优分类树（OCT-H）来学习 MFQNETs 的最优控制策略。我们使用 MFQNET 控制问题的数值解作为训练集，并将 OCT-H 应用于学习明确的控制策略。实验结果报告了高达 33 个服务器和 99 个类别的实验结果，表明学习到的策略在测试集上达到 100％的准确率。虽然在大型网络中，OCT-H 的离线训练可能需要几天时间，但在线应用只需要毫秒级的时间。

Jul, 2023

基于学习的双边队列定价与匹配

设计定价和匹配算法以最大化利润，同时保持顾客和服务商的队列长度低于预定阈值的动态系统。

Mar, 2024