使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链
本文提出使用强化学习和深度学习技术来解决供应链库存管理问题,提供了随机两阶段供应链环境的数学形式,并开发了一个公开的库,以便使用深度强化学习算法解决 SCIM 问题。实验结果表明,DRL 相对于标准的重新订购策略表现更好,因此可以被视为解决真实世界的问题的一种实用有效的选择。
Apr, 2022
该研究探讨了在不同策略要求的环境中,代理人能否控制变化的供应链问题,避免长时间未见任务导致的灾难性遗忘,通过对比不同算法的性能发现,在不同程度的随机性环境中,将学习策略适用于连续变化的供应链情境中是不同的,并且具有记忆历史的算法在应对极端任务的变化中表现较好。
Dec, 2023
本文考虑供应链中存在的交货期不确定性和因此导致的库存管理性能下降问题,提出了一种基于强化学习的延迟解决方法,并在多种不确定性的情景下进行了实证评估,证明该方法可以实现接近最优的性能。
Mar, 2022
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023
通过将动作序列纳入来解决部分可观察马尔可夫决策过程,本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络,结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。
Jul, 2023
基于深度强化学习,使用编码器 - 解码器的注意机制生成的策略在某些车辆路径问题上表现出有效性,但在某些复杂车辆路径问题上,仍缺乏有效的强化学习方法。本研究针对一种包含多辆卡车和多段路径要求的车辆路径问题变体,扩展现有的编码器 - 解码器注意模型,使其能够处理多辆卡车和多段路径需求,并在日本汽车零部件制造商爱信公司的实际供应链环境中测试,发现我们的算法优于爱信公司的最佳解决方案。
Jan, 2024
探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的 PPO 算法对处理网络控制问题进行了解决。
May, 2022
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。
May, 2023