基于约束的深度强化学习的在线三维装箱

AAAIJun, 2020

基于约束的深度强化学习的在线三维装箱

Online 3D Bin Packing with Constrained Deep Reinforcement Learning

Hang Zhao, Qijin She, Chenyang Zhu, Yin Yang, Kai Xu

TL;DR利用被约束的深度强化学习，将 3D 装箱问题建模成约束的马尔科夫决策过程，使用可行性预测器来有效地预测可行的放置动作的概率，并且在训练过程中使用它来调节演员输出的行动概率，以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转，本研究的方法在人类实验中获得了和人类相似的性能表现。

Abstract

We solve a challenging yet practically useful variant of 3d bin packing Problem (3D-BPP). In our problem, the agent has limited information about the items to be packed into the bin, and an item must be packed immediately after its arrival without buffering or readjusting. The item's p

3d bin packing constrained markov decision process constrained deep reinforcement learning feasibility predictor human-level performance

发现论文，激发创造

在线 3D 装箱强化学习解决方案（附缓冲区）

本文提出了一种基于强化学习框架的三维装箱问题（3D-BPP）解决方案，其中引入了一个缓冲区以允许多物品动作选择，并提出了一种采用容器物品对称性的数据增强策略，采用类似于 AlphaGo 的模型 RL 方法进行实现，用单线程和 GPU 训练该框架，得出了在空间利用率方面优于现有成果的解决方案。

Aug, 2022

使用深度强化学习方法解决新的 3D 装箱问题

本文提出一种新型三维装箱问题，利用深度强化学习算法中的 Pointer Network 方法来优化装箱物品的序列，以期在不固定大小容器的场景下，通过最小化表面积来减少容器成本。数值结果显示该方法较启发式方法改进了约 5%。

Aug, 2017

在线 3D 装箱的可调鲁棒强化学习

在线 3D 装箱问题（3D-BPP）的有效政策设计一直是一个长期的挑战，本文提出了可调整鲁棒性强化学习（AR2L）框架，通过调整鲁棒性权重实现策略在平均情况和最坏情况下的平衡，以提升策略的鲁棒性同时保持较高的性能水平。

Oct, 2023

多维装箱问题的机器学习：文献综述与实证评估

本文首次对机器学习相关的装箱问题（BPP）方法进行了系统回顾，介绍了 BPP 的变体和实际限制，并对多维 BPP 进行了全面调研。同时，我们收集了一些 3D BPP 的公共基准，并在 Cutting Stock 数据集上评估了一些在线方法。最后，我们分享了在装箱问题中存在的挑战和未来方向。

Dec, 2023

利用量子退火器解决现实世界垃圾桶装问题的混合方法

提出一种考虑了真实世界中各种限制条件（如包裹箱尺寸，超重限制，不同类别物品的亲和性以及物品排列偏好）的混合量子经典框架（Q4RealBPP）用于解决三维装箱问题，可广泛应用于工业与物流领域。

Mar, 2023

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

通过混合的量子 - 经典方法解决物流导向的装箱问题

本文利用 Q4RealBPP 解决了实际问题中的装箱问题，包括异构容器、一维和二维问题实例的扩展以及物品 - 容器关联要求和配送优先级的特性测试。

Aug, 2023

供应链库存管理的深度强化学习方法

本文提出使用强化学习和深度学习技术来解决供应链库存管理问题，提供了随机两阶段供应链环境的数学形式，并开发了一个公开的库，以便使用深度强化学习算法解决 SCIM 问题。实验结果表明，DRL 相对于标准的重新订购策略表现更好，因此可以被视为解决真实世界的问题的一种实用有效的选择。

Apr, 2022

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

神经打包：从视觉感知到强化学习

我们提出了一个新的学习框架来解决 3D 中的运输和装箱问题，其中的技术核心是使用强化学习训练的神经网络，通过 RGBD 感知和识别，机器人运动规划，来实现在目标容器中进行紧密的装箱。

Oct, 2023