在线 3D 装箱的可调鲁棒强化学习
本文提出了一种基于强化学习框架的三维装箱问题(3D-BPP)解决方案,其中引入了一个缓冲区以允许多物品动作选择,并提出了一种采用容器物品对称性的数据增强策略,采用类似于 AlphaGo 的模型 RL 方法进行实现,用单线程和 GPU 训练该框架,得出了在空间利用率方面优于现有成果的解决方案。
Aug, 2022
利用被约束的深度强化学习,将 3D 装箱问题建模成约束的马尔科夫决策过程,使用可行性预测器来有效地预测可行的放置动作的概率,并且在训练过程中使用它来调节演员输出的行动概率,以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转,本研究的方法在人类实验中获得了和人类相似的性能表现。
Jun, 2020
本文提出一种新型三维装箱问题,利用深度强化学习算法中的 Pointer Network 方法来优化装箱物品的序列,以期在不固定大小容器的场景下,通过最小化表面积来减少容器成本。数值结果显示该方法较启发式方法改进了约 5%。
Aug, 2017
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。
Nov, 2023
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
探讨了多级供应链中的生产计划和分配问题,利用深度增强学习技术 Proximal Policy Optimization(PPO2)来解决非线性不确定需求的问题,结果表明在有不确定性情况下,该方法更具优势。
Jan, 2022
本研究提出了一种基于强化学习的新型边权重在线二分图匹配方法(LOMAR),以实现良好的平均情况和最坏情况下的性能,其中,关键新颖的操作是根据谨慎的条件决定是否跟随专家的决策还是 RL 决策。
May, 2023
本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案,在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。
Feb, 2022
在协作式人机拣货系统中,通过仓库独立移动的人工拣货员和自主移动机器人(AMRs)在拣货位置汇合,拣货员将物品装上 AMRs。本文考虑在这种系统中在随机环境下将拣货员分配给 AMRs 的优化问题,提出了一种新颖的多目标深度强化学习(DRL)方法,以学习有效的分配策略,既最大化拣货效率,又提高人工拣货员的工作负载公平性。我们的方法使用图模型来建模仓库的状态,并定义了一个能够捕捉区域信息并有效提取与效率和工作负载相关表征的神经网络架构。我们开发了一个离散事件模拟模型,用于训练和评估提出的 DRL 方法。实验中,我们证明了我们的方法能够找到非支配策略集,从而在公平性和效率目标之间获得良好的权衡。训练的策略在效率和公平性方面优于基准线,并且在不同仓库大小的场景中展现出良好的可迁移性。
Apr, 2024