Jul, 2023

多智能体强化学习在分散式库存控制系统中的分析

TL;DR提出了一种使用多智能体强化学习的分散化数据驱动库存管理问题的解决方案,其中每个实体由一个智能体控制,通过对不同供应链网络和不确定性水平的模拟来研究近端策略优化算法的三个多智能体变体。中心化训练分散化执行的框架被部署,该框架依赖于离线集中化,以便在基于模拟的策略识别期间进行,但在策略在线部署到实际系统时实现分散化。结果表明,使用带有集中式评论者的多智能体近端策略优化方法可以实现接近集中式数据驱动解决方案的性能,并在大多数情况下优于分布式基于模型的解决方案,同时遵守系统的信息约束。