透过回顾可微政策优化实现网络中的神经库存控制

Jun, 2023

透过回顾可微政策优化实现网络中的神经库存控制

Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization

Matias Alvo, Daniel Russo, Yash Kanoria

TL;DR通过优化策略的效果并提出一种神经网络结构解决了库存管理的难点，我们可以稳定应用深度加强学习算法来对具有隐藏结构的问题进行优化。

Abstract

inventory management offers unique opportunities for reliably evaluating and applying deep reinforcement learning (DRL). Rather than evaluate DRL algorithms by comparing against one another or against human exper

inventory management reinforcement learning optimization neural networks large-scale problems

发现论文，激发创造

基于径向基函数的多层次库存管理深度 Q 网络

本文通过进行一系列模拟实验，证明了基于径向基函数的深度强化学习模型在多层次库存管理问题中的卓越性能，相较于传统基于神经网络的深度强化学习模型，该模型更易于构建，减轻超参数调优的计算负担，并在多层次系统中产生了更好的策略，以及在串行系统中具有与基本库存策略相当的竞争性能，同时也超越了目前的深度强化学习方法。

Jan, 2024

多智能体强化学习在分散式库存控制系统中的分析

提出了一种使用多智能体强化学习的分散化数据驱动库存管理问题的解决方案，其中每个实体由一个智能体控制，通过对不同供应链网络和不确定性水平的模拟来研究近端策略优化算法的三个多智能体变体。中心化训练分散化执行的框架被部署，该框架依赖于离线集中化，以便在基于模拟的策略识别期间进行，但在策略在线部署到实际系统时实现分散化。结果表明，使用带有集中式评论者的多智能体近端策略优化方法可以实现接近集中式数据驱动解决方案的性能，并在大多数情况下优于分布式基于模型的解决方案，同时遵守系统的信息约束。

Jul, 2023

供应链库存管理的深度强化学习方法

本文提出使用强化学习和深度学习技术来解决供应链库存管理问题，提供了随机两阶段供应链环境的数学形式，并开发了一个公开的库，以便使用深度强化学习算法解决 SCIM 问题。实验结果表明，DRL 相对于标准的重新订购策略表现更好，因此可以被视为解决真实世界的问题的一种实用有效的选择。

Apr, 2022

库存管理的协作多智能体强化学习

本文提出了一种基于强化学习的库存管理系统，主要解决现实供应链环境下的计算需求和奖励框架等问题，并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略，并给出了未来研究方向的讨论。

Apr, 2023

优化库存路线：基于决策导向学习的神经网络方法

我们提出了一种面向决策的基于学习的方法来解决实际的库存路径规划问题，该方法直接整合了库存预测和路径优化于一个端到端的系统中，可能确保一个稳健的供应链策略。

Nov, 2023

深度强化学习解决管理问题：迈向大型管理模式

我们引入了一种深度强化学习 (DRL) 方法来解决包括库存管理、动态定价和推荐等管理问题。这种 DRL 方法有潜力基于特定的变压器神经网络结构构建一个大型管理模型，从而为各种管理任务提供一种人工通用智能范式。我们的方法能够统一框架下解决问题，考虑不同任务之间的相互关系。实验结果验证了我们基于 DRL 的框架在复杂和动态的商业环境中的有效性。这项工作为 DRL 在管理问题中的应用开辟了新的道路，突显了其改革传统商业管理的潜力。

Mar, 2024

大型供应链网络的通用库存管理策略学习

研究了基于强化学习的仓库库存管理算法，该算法可以用于产品和零售商数量都庞大的供应链系统，并提供了一种训练阶段中模拟系统的近似方法来解决处理大型系统的计算问题，实验证明了该算法可以成功地处理大型供应链网络。

Apr, 2022

在线随机排队网络优化的干预辅助策略梯度方法：技术报告

在线深度强化学习控制（ODRLC）是一种可替代传统方法的方法，它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架，结合了神经网络的学习能力和传统控制策略的稳定性，以解决随机队列网络中无界状态空间的挑战。通过实验证明，我们的提出算法优于传统控制方法和之前的 ODRLC 算法。

Apr, 2024

用于评估和改进库存控制策略的上下文境决策

该研究介绍了周期性审查库存控制问题的解决方案，涉及非平稳随机需求、销售损失和随机供应商交货时间，引入了平衡策略的概念，并提供了一种轻量级的基于上下文的依据算法，以评估和偶尔调整策略，证明了该方法在理论和实证研究中取得了良好的保证。

Oct, 2023

探索深度和循环结构用于最优控制

本文研究了多层神经网络在控制方面的应用，特别是在连续高维动作任务中，通过强化学习训练后实现了控制策略，结果表明可以成功训练具有成千上万个参数的神经网络控制器，并比较了各种不同结构。文章讨论了这一问题与以往有监督知觉任务的区别，呈现了实验结果，并讨论了将深度学习技术应用于控制问题优化的未来方向。

Nov, 2013