学习具有常规库存到货动态的库存控制策略

Oct, 2023

学习具有常规库存到货动态的库存控制策略

Learning an Inventory Control Policy with General Inventory Arrival Dynamics

Sohrab Andaz, Carson Eisenach, Dhruv Madeka, Kari Torkkola, Randy Jia...

TL;DR该研究通过深度生成模型，解决了在供应链中处理任意到货动态及订单数量后处理的周期复审库存控制问题，提高了生产效益。

Abstract

In this paper we address the problem of learning and backtesting inventory control policies in the presence of general arrival dynamics -- which we term as a quantity-over-time arrivals model (QOT). We also allow for order quantities to be modified as a post-processing step to meet ven

inventory control policies arrival dynamics order quantities supply chains deep generative model

发现论文，激发创造

多产品库存管理中处理不确定交货期的基于学习的框架

本文考虑供应链中存在的交货期不确定性和因此导致的库存管理性能下降问题，提出了一种基于强化学习的延迟解决方法，并在多种不确定性的情景下进行了实证评估，证明该方法可以实现接近最优的性能。

Mar, 2022

部分可观察排队网络中的最优入场控制学习

我们提出了一种高效的强化学习算法，用于在部分可观察排队网络中学习最佳的入场控制策略，其中部分可观察性是指只有网络的到达和离开时间是可观察的，最优性是指在无限时间内的平均持有 / 拒绝成本。

Aug, 2023

用于评估和改进库存控制策略的上下文境决策

该研究介绍了周期性审查库存控制问题的解决方案，涉及非平稳随机需求、销售损失和随机供应商交货时间，引入了平衡策略的概念，并提供了一种轻量级的基于上下文的依据算法，以评估和偶尔调整策略，证明了该方法在理论和实证研究中取得了良好的保证。

Oct, 2023

库存策略的 VC 理论

计算能力和人工智能的进步增加了对强化学习在库存管理中的兴趣，本论文对这些方法提供了理论基础，并探讨了将政策结构限制为几十年来库存理论所熟知的结构的好处。我们利用 Vapnik-Chervonenkis 理论证明了对学习几种众所周知的库存策略（包括基准库存量和 (s, S) 策略）的泛化保证，应用了 Pseudo-dimension 和 Fat-shattering 维度的概念来确定库存策略的泛化能力。我们的研究结果从管理角度提供了以下见解：首先，在库存管理中存在 “学得越少越好” 的原则，根据可用的数据量，限制自己到一个更简单但次优的库存策略类别可能是有益的，以最小化过拟合误差。其次，策略类别中的参数数量可能并不是衡量过拟合误差的正确指标：事实上，由 T 个时变基准库存水平定义的策略类别的泛化误差与两个参数的 (s, S) 策略类别相当。最后，我们的研究建议在黑盒学习机器中将基准库存和库存位置的概念纳入，而不是让这些机器直接学习订购量行动。

Apr, 2024

通过状态抽象进行多类队列的时变到达率最优入场控制

本文提出一个新的排队问题，该问题涉及价格、不同的价格分布和服务速率的任务，提出了一种基于强化学习的方法。实验表明，该方法适用于金融欺诈检测。

Mar, 2022

在线库存问题：在线凸优化中超越 i.i.d. 设置

研究了多产品库存控制问题，提出了 MaxCOSD 在线算法，可实现对非 i.i.d 需求和有状态动态的问题进行有效控制。

Jul, 2023

大型供应链网络的通用库存管理策略学习

研究了基于强化学习的仓库库存管理算法，该算法可以用于产品和零售商数量都庞大的供应链系统，并提供了一种训练阶段中模拟系统的近似方法来解决处理大型系统的计算问题，实验证明了该算法可以成功地处理大型供应链网络。

Apr, 2022

Hawkes 到达队列的稳态分析及其在 Hawkes 队列在线学习中的应用

通过创新的耦合技术，我们对具有 Hawkes 到达和普通服务分布的单服务器队列的长期行为及相关优化问题进行了研究。基于这些理论结果，我们以数据驱动的方式开发了一种高效的数值算法来解决 Hawkes 队列的最佳人员配备问题。数值结果表明 Hawkes 队列与经典的 GI/GI/1 模型，在特别是高流量环境中，人员配备方面存在明显差异。

Nov, 2023

两向高斯过程回归及 AoI 感知调度联合设计的预测控制与通讯

研究上传和下载调度和功率分配的联合问题，通过机器学习和高斯过程回归预测丢失的状态和操作信息，以最小化平均信息新鲜度和传输功率，并利用 Lyapunov drift-plus-penalty 优化框架提出动态控制算法。

Jan, 2021

带有凸代价函数的结构化 MDP 学习：改进的库存管理遗憾界限

设计了一种学习算法来解决一个基本库存管理中未知需求分布的问题，使用基本库存策略的下限和凸性等属性来建立与随机凸臂优化的联系，极大地提高了此问题的已知后悔上限。

May, 2019