InvAgent:基于大型语言模型的供应链库存管理多智能体系统
本文提出使用强化学习和深度学习技术来解决供应链库存管理问题,提供了随机两阶段供应链环境的数学形式,并开发了一个公开的库,以便使用深度强化学习算法解决SCIM问题。实验结果表明,DRL相对于标准的重新订购策略表现更好,因此可以被视为解决真实世界的问题的一种实用有效的选择。
Apr, 2022
研究了基于强化学习的仓库库存管理算法,该算法可以用于产品和零售商数量都庞大的供应链系统,并提供了一种训练阶段中模拟系统的近似方法来解决处理大型系统的计算问题,实验证明了该算法可以成功地处理大型供应链网络。
Apr, 2022
通过提出Context-aware Decentralized PPO (CD-PPO)算法,本研究利用Shared-Resource Stochastic Game (SRSG)模型解决了库存管理中的再订货决策问题,并通过大量实验表明CD-PPO算法比标准的MARL算法有更快的学习速度。
Dec, 2022
本文提出了一种基于强化学习的库存管理系统,主要解决现实供应链环境下的计算需求和奖励框架等问题,并通过GPU并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略,并给出了未来研究方向的讨论。
Apr, 2023
本文介绍了一个名为MABIM的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估,并探讨了多益智智能算法在实际行业中的应用。
Jun, 2023
通过Large Language Models(LLMs)的最新进展,研究如何将这一颠覆性技术应用于供应链自动化,并解决人类理解和信任之间的间隙。设计了一个名为 ame{}的框架,通过输入纯文本查询并输出有关底层优化结果的见解。同时,我们开发了一个通用的评估基准,用于评估LLM在其他情景中的准确性。
Jul, 2023
提出了一种使用多智能体强化学习的分散化数据驱动库存管理问题的解决方案,其中每个实体由一个智能体控制,通过对不同供应链网络和不确定性水平的模拟来研究近端策略优化算法的三个多智能体变体。中心化训练分散化执行的框架被部署,该框架依赖于离线集中化,以便在基于模拟的策略识别期间进行,但在策略在线部署到实际系统时实现分散化。结果表明,使用带有集中式评论者的多智能体近端策略优化方法可以实现接近集中式数据驱动解决方案的性能,并在大多数情况下优于分布式基于模型的解决方案,同时遵守系统的信息约束。
Jul, 2023
通过优化补给决策,维持产品供需平衡是供应链行业面临的最重要挑战之一。本文使用一种名为MARLIM的新型强化学习框架,解决了具有随机需求和交货时间的单级多产品供应链的库存管理问题。数值实验结果表明,相比传统基准模型,强化学习方法具有显著优势。
Aug, 2023
该研究探讨了在不同策略要求的环境中,代理人能否控制变化的供应链问题,避免长时间未见任务导致的灾难性遗忘,通过对比不同算法的性能发现,在不同程度的随机性环境中,将学习策略适用于连续变化的供应链情境中是不同的,并且具有记忆历史的算法在应对极端任务的变化中表现较好。
Dec, 2023
计算能力和人工智能的进步增加了对强化学习在库存管理中的兴趣,本论文对这些方法提供了理论基础,并探讨了将政策结构限制为几十年来库存理论所熟知的结构的好处。我们利用Vapnik-Chervonenkis理论证明了对学习几种众所周知的库存策略(包括基准库存量和(s, S)策略)的泛化保证,应用了Pseudo-dimension和Fat-shattering维度的概念来确定库存策略的泛化能力。我们的研究结果从管理角度提供了以下见解:首先,在库存管理中存在“学得越少越好”的原则,根据可用的数据量,限制自己到一个更简单但次优的库存策略类别可能是有益的,以最小化过拟合误差。其次,策略类别中的参数数量可能并不是衡量过拟合误差的正确指标:事实上,由T个时变基准库存水平定义的策略类别的泛化误差与两个参数的(s, S)策略类别相当。最后,我们的研究建议在黑盒学习机器中将基准库存和库存位置的概念纳入,而不是让这些机器直接学习订购量行动。
Apr, 2024