半满-维特制度下多类别队列的动态调度:高维问题的计算方法
本文提出了一种针对状态空间较大的MDP问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。
Jan, 2019
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的Proximal Policy Optimization算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020
本文提出一个新的排队问题,该问题涉及价格、不同的价格分布和服务速率的任务,提出了一种基于强化学习的方法。实验表明,该方法适用于金融欺诈检测。
Mar, 2022
我们提出了一种机器学习方法来解决多类流体排队网络(MFQNETs)的最优控制问题,并提供了明确和深入的控制策略。我们证明了MFQNET控制问题存在一种阈值类型的最优策略,其中阈值曲线是通过原点的超平面。我们使用具有超平面分割的最优分类树(OCT-H)来学习MFQNETs的最优控制策略。我们使用MFQNET控制问题的数值解作为训练集,并将OCT-H应用于学习明确的控制策略。实验结果报告了高达33个服务器和99个类别的实验结果,表明学习到的策略在测试集上达到100%的准确率。虽然在大型网络中,OCT-H的离线训练可能需要几天时间,但在线应用只需要毫秒级的时间。
Jul, 2023
我们提出了一种高效的强化学习算法,用于在部分可观察排队网络中学习最佳的入场控制策略,其中部分可观察性是指只有网络的到达和离开时间是可观察的,最优性是指在无限时间内的平均持有/拒绝成本。
Aug, 2023
我们提出了一种基于低维度软阈值策略参数化的高效策略梯度算法ACHQ,利用底层排队结构,针对中心队列向异构服务器系统中任务迅速路由的问题。我们为一般情况提供了静态点收敛保证,并且尽管参数化维度较低,但证明了ACHQ对于两个服务器的特殊情况收敛于近似全局最优解。模拟结果表明,与贪婪策略相比,ACHQ在预期响应时间上提高了约30%。
Feb, 2024
基于预测模型的最优调度决策在服务系统中的关键是理解预测误差对其他作业的延迟产生的外部性对拥塞的影响。我们在应用中考虑了预测模型与人类服务器交互的情况(例如内容审查),设计了一个基于指标的策略,以近乎最优的方式结合了预测的类别信息,通过对重负载下拥塞成本的特征化来指导预测模型的设计,并针对基于人工智能的任务划分设计了一种新颖的排队系统。我们以实际在线评论为基础,通过微调大型语言模型构建鉴别有毒性的分类器,展示了我们的框架。
Jun, 2024
该研究应用监督机器学习方法解决排队理论中的一个基本问题,即估计G(t)/GI/1系统中数量的瞬时分布。研究采用基于神经网络的机制,通过使用瞬时到达时间和稳态服务时间分布的前几个矩的循环神经网络(MBRNN)方法,提供了快速准确的预测模型。通过模拟生成大量训练数据集,并通过两个不同的测试集进行了彻底的性能评估,结果表明MBRNN方法的平均误差小于3%。研究还强调MBRNN方法相比于模拟的优势在于运行时间,且能在秒级时间内分析数百个系统。尽管本文聚焦于G(t)/GI/1系统,但MBRNN方法可以推广到其他排队系统,因为训练数据标注基于模拟(适用于更复杂的系统),且训练基于深度学习,能够捕捉非常复杂的时间序列任务。因此,MBRNN具有潜力彻底改变我们分析排队系统的瞬时特性的能力。
Jul, 2024
本研究解决了排队网络控制面临的高随机性和大状态空间等挑战,提出了一种基于可微分离散事件模拟的可扩展政策优化框架。通过实施精心设计的平滑技术,研究表明该方法在大规模排队网络中可以显著提高样本效率,达到比现有强化学习方法高出50-1000倍的表现。
Sep, 2024