Apr, 2024

学习高效且公平的不确定性感知人机协作拣货策略

TL;DR在协作式人机拣货系统中,通过仓库独立移动的人工拣货员和自主移动机器人(AMRs)在拣货位置汇合,拣货员将物品装上 AMRs。本文考虑在这种系统中在随机环境下将拣货员分配给 AMRs 的优化问题,提出了一种新颖的多目标深度强化学习(DRL)方法,以学习有效的分配策略,既最大化拣货效率,又提高人工拣货员的工作负载公平性。我们的方法使用图模型来建模仓库的状态,并定义了一个能够捕捉区域信息并有效提取与效率和工作负载相关表征的神经网络架构。我们开发了一个离散事件模拟模型,用于训练和评估提出的 DRL 方法。实验中,我们证明了我们的方法能够找到非支配策略集,从而在公平性和效率目标之间获得良好的权衡。训练的策略在效率和公平性方面优于基准线,并且在不同仓库大小的场景中展现出良好的可迁移性。