在线 3D 装箱的可调鲁棒强化学习

Oct, 2023

Adjustable Robust Reinforcement Learning for Online 3D Bin Packing

Yuxin Pan, Yize Chen, Fangzhen Lin

TL;DR在线 3D 装箱问题（3D-BPP）的有效政策设计一直是一个长期的挑战，本文提出了可调整鲁棒性强化学习（AR2L）框架，通过调整鲁棒性权重实现策略在平均情况和最坏情况下的平衡，以提升策略的鲁棒性同时保持较高的性能水平。

Abstract

Designing effective policies for the online 3d bin packing problem (3D-BPP) has been a long-standing challenge, primarily due to the unpredictable nature of incoming box sequences and stringent physical constraints. While current →

online 3d bin packing problem deep reinforcement learning robustness adjustable robust reinforcement learning policy performance

发现论文，激发创造

在线 3D 装箱强化学习解决方案（附缓冲区）

本文提出了一种基于强化学习框架的三维装箱问题（3D-BPP）解决方案，其中引入了一个缓冲区以允许多物品动作选择，并提出了一种采用容器物品对称性的数据增强策略，采用类似于 AlphaGo 的模型 RL 方法进行实现，用单线程和 GPU 训练该框架，得出了在空间利用率方面优于现有成果的解决方案。

Aug, 2022

基于约束的深度强化学习的在线三维装箱

利用被约束的深度强化学习，将 3D 装箱问题建模成约束的马尔科夫决策过程，使用可行性预测器来有效地预测可行的放置动作的概率，并且在训练过程中使用它来调节演员输出的行动概率，以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转，本研究的方法在人类实验中获得了和人类相似的性能表现。

Jun, 2020

使用深度强化学习方法解决新的 3D 装箱问题

本文提出一种新型三维装箱问题，利用深度强化学习算法中的 Pointer Network 方法来优化装箱物品的序列，以期在不固定大小容器的场景下，通过最小化表面积来减少容器成本。数值结果显示该方法较启发式方法改进了约 5%。

Aug, 2017

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

具有强鲁棒性保证的边加权在线二分匹配学习

本研究提出了一种基于强化学习的新型边权重在线二分图匹配方法（LOMAR），以实现良好的平均情况和最坏情况下的性能，其中，关键新颖的操作是根据谨慎的条件决定是否跟随专家的决策还是 RL 决策。

May, 2023

通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习

本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack，旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题，并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案，在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。

Feb, 2022

学习高效且公平的不确定性感知人机协作拣货策略

在协作式人机拣货系统中，通过仓库独立移动的人工拣货员和自主移动机器人（AMRs）在拣货位置汇合，拣货员将物品装上 AMRs。本文考虑在这种系统中在随机环境下将拣货员分配给 AMRs 的优化问题，提出了一种新颖的多目标深度强化学习（DRL）方法，以学习有效的分配策略，既最大化拣货效率，又提高人工拣货员的工作负载公平性。我们的方法使用图模型来建模仓库的状态，并定义了一个能够捕捉区域信息并有效提取与效率和工作负载相关表征的神经网络架构。我们开发了一个离散事件模拟模型，用于训练和评估提出的 DRL 方法。实验中，我们证明了我们的方法能够找到非支配策略集，从而在公平性和效率目标之间获得良好的权衡。训练的策略在效率和公平性方面优于基准线，并且在不同仓库大小的场景中展现出良好的可迁移性。

Apr, 2024

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023