MARLIM:多智能体强化学习于库存管理
本文介绍了一个名为 MABIM 的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估,并探讨了多益智智能算法在实际行业中的应用。
Jun, 2023
本文提出了一种基于强化学习的库存管理系统,主要解决现实供应链环境下的计算需求和奖励框架等问题,并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略,并给出了未来研究方向的讨论。
Apr, 2023
提出了一种使用多智能体强化学习的分散化数据驱动库存管理问题的解决方案,其中每个实体由一个智能体控制,通过对不同供应链网络和不确定性水平的模拟来研究近端策略优化算法的三个多智能体变体。中心化训练分散化执行的框架被部署,该框架依赖于离线集中化,以便在基于模拟的策略识别期间进行,但在策略在线部署到实际系统时实现分散化。结果表明,使用带有集中式评论者的多智能体近端策略优化方法可以实现接近集中式数据驱动解决方案的性能,并在大多数情况下优于分布式基于模型的解决方案,同时遵守系统的信息约束。
Jul, 2023
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
本文提出 Mind-aware Multi-agent Management Reinforcement Learning (M^3RL) 算法,通过对多个自我意识且不可控制的机器人进行建模,实现超级机器人的管理和操纵,以实现最优的多机器人协同任务分配和奖励系统。
Sep, 2018
该论文介绍了一种基于多智能体强化学习技术的意图管理方法,通过优化重要 KPI 并协调各个闭环实现多个意图同时满足,实验结果表明该方法在实现意图和优化 KPI 方面表现良好。
Aug, 2022
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019