在线 3D 装箱强化学习解决方案（附缓冲区）

Aug, 2022

在线 3D 装箱强化学习解决方案（附缓冲区）

Online 3D Bin Packing Reinforcement Learning Solution with Buffer

Aaron Valero Puche, Sukhan Lee

TL;DR本文提出了一种基于强化学习框架的三维装箱问题（3D-BPP）解决方案，其中引入了一个缓冲区以允许多物品动作选择，并提出了一种采用容器物品对称性的数据增强策略，采用类似于 AlphaGo 的模型 RL 方法进行实现，用单线程和 GPU 训练该框架，得出了在空间利用率方面优于现有成果的解决方案。

Abstract

The 3d bin packing problem (3D-BPP) is one of the most demanded yet challenging problems in industry, where an agent must pack variable size items delivered in sequence into a finite bin with the aim to maximize the space utilization. It represents a strongly NP-Hard optimization probl

3d bin packing problem reinforcement learning item symmetries model-based rl method space utilization

发现论文，激发创造

基于约束的深度强化学习的在线三维装箱

利用被约束的深度强化学习，将 3D 装箱问题建模成约束的马尔科夫决策过程，使用可行性预测器来有效地预测可行的放置动作的概率，并且在训练过程中使用它来调节演员输出的行动概率，以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转，本研究的方法在人类实验中获得了和人类相似的性能表现。

Jun, 2020

使用深度强化学习方法解决新的 3D 装箱问题

本文提出一种新型三维装箱问题，利用深度强化学习算法中的 Pointer Network 方法来优化装箱物品的序列，以期在不固定大小容器的场景下，通过最小化表面积来减少容器成本。数值结果显示该方法较启发式方法改进了约 5%。

Aug, 2017

在线 3D 装箱的可调鲁棒强化学习

在线 3D 装箱问题（3D-BPP）的有效政策设计一直是一个长期的挑战，本文提出了可调整鲁棒性强化学习（AR2L）框架，通过调整鲁棒性权重实现策略在平均情况和最坏情况下的平衡，以提升策略的鲁棒性同时保持较高的性能水平。

Oct, 2023

多维装箱问题的机器学习：文献综述与实证评估

本文首次对机器学习相关的装箱问题（BPP）方法进行了系统回顾，介绍了 BPP 的变体和实际限制，并对多维 BPP 进行了全面调研。同时，我们收集了一些 3D BPP 的公共基准，并在 Cutting Stock 数据集上评估了一些在线方法。最后，我们分享了在装箱问题中存在的挑战和未来方向。

Dec, 2023

利用量子退火器解决现实世界垃圾桶装问题的混合方法

提出一种考虑了真实世界中各种限制条件（如包裹箱尺寸，超重限制，不同类别物品的亲和性以及物品排列偏好）的混合量子经典框架（Q4RealBPP）用于解决三维装箱问题，可广泛应用于工业与物流领域。

Mar, 2023

通过混合的量子 - 经典方法解决物流导向的装箱问题

本文利用 Q4RealBPP 解决了实际问题中的装箱问题，包括异构容器、一维和二维问题实例的扩展以及物品 - 容器关联要求和配送优先级的特性测试。

Aug, 2023

现实世界三维装箱问题的基准数据集和实例生成器

本文提出了用于现实世界装箱问题的基准测试集，包含了 12 个具有不同大小和用户定义要求的问题实例，还提供了一个名为 Q4RealBPP-DataGen 的 Python 脚本，用于数据集生成。该测试集旨在评估量子计算机的性能，并为构建通用基准测试集提供了数据，可作为量子计算研究的基准，鼓励研究人员在现实世界的装箱问题上开展工作。

Apr, 2023

神经打包：从视觉感知到强化学习

我们提出了一个新的学习框架来解决 3D 中的运输和装箱问题，其中的技术核心是使用强化学习训练的神经网络，通过 RGBD 感知和识别，机器人运动规划，来实现在目标容器中进行紧密的装箱。

Oct, 2023

QAL-BP: 增广拉格朗日量子方法用于装箱问题

QAL-BP 是一种用于解决装箱问题的新型二次无约束二值优化（QUBO）方法，利用增广拉格朗日方法将装箱约束融入目标函数中，同时为启发式罚函数提供了分析估计，通过在实际量子退火设备上进行实验，结果表明量子计算在解决装箱问题上的潜力，特别是在可靠的量子技术逐渐成熟时。

Sep, 2023

学习剪枝的改进强化学习算法

本文提出了基于深度强化学习的分支定界算法，该算法利用离线模仿学习与自主生成数据相结合的优化方法，并且引入了一种优先存储机制来控制二者之间的混合比例，以此提高算法的性能表现。文章在三个公共研究基准上对所提出的算法进行了评估，并与三种经典的启发式方法以及一种先进的模仿学习算法进行了比较。研究结果表明，所提出的算法在性能上表现最佳，并具有不断提高分支定界算法性能的潜力。

Jan, 2022