AAAIJun, 2020

基于约束的深度强化学习的在线三维装箱

TL;DR利用被约束的深度强化学习,将 3D 装箱问题建模成约束的马尔科夫决策过程,使用可行性预测器来有效地预测可行的放置动作的概率,并且在训练过程中使用它来调节演员输出的行动概率,以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转,本研究的方法在人类实验中获得了和人类相似的性能表现。