学习高效且公平的不确定性感知人机协作拣货策略

Apr, 2024

学习高效且公平的不确定性感知人机协作拣货策略

Learning Efficient and Fair Policies for Uncertainty-Aware Collaborative Human-Robot Order Picking

Igor G. Smit, Zaharah Bukhsh, Mykola Pechenizkiy, Kostas Alogariastos, Kasper Hendriks...

TL;DR在协作式人机拣货系统中，通过仓库独立移动的人工拣货员和自主移动机器人（AMRs）在拣货位置汇合，拣货员将物品装上 AMRs。本文考虑在这种系统中在随机环境下将拣货员分配给 AMRs 的优化问题，提出了一种新颖的多目标深度强化学习（DRL）方法，以学习有效的分配策略，既最大化拣货效率，又提高人工拣货员的工作负载公平性。我们的方法使用图模型来建模仓库的状态，并定义了一个能够捕捉区域信息并有效提取与效率和工作负载相关表征的神经网络架构。我们开发了一个离散事件模拟模型，用于训练和评估提出的 DRL 方法。实验中，我们证明了我们的方法能够找到非支配策略集，从而在公平性和效率目标之间获得良好的权衡。训练的策略在效率和公平性方面优于基准线，并且在不同仓库大小的场景中展现出良好的可迁移性。

Abstract

In collaborative human-robot order picking systems, human pickers and autonomous mobile robots (AMRs) travel independently through a warehouse and meet at pick locations where pickers load items onto the AMRs. In

collaborative human-robot order picking systems autonomous mobile robots optimization problem deep reinforcement learning workload fairness

发现论文，激发创造

仓储中的拣货路径问题的深度强化学习

仓库操作管理中的拣货路径规划是一个关键问题。由于问题的复杂性和快速解决的需求，实践中经常使用次优算法。然而，强化学习提供了传统启发式方法的一个有吸引力的替代方案，潜在地在速度和准确性方面优于现有方法。我们介绍了一种基于注意力机制的神经网络模型来建模拣货路线，该模型使用强化学习进行训练。我们的方法在一系列问题参数上与现有启发式方法进行了评估，以展示其效力。我们提出的方法的一个关键优势是可以降低路径的感知复杂性。

Feb, 2024

降低支持强化学习策略的风险与扩散模型

应用强化学习和模仿学习改进辅助机器人的策略设计，以提供安全可靠的辅助护理解决方案。

May, 2024

机器人黑盒数据高效策略搜索

本文提出一种称为 Black-DROPS 的新型基于模型的强化学习算法，使用黑盒算法代替基于梯度的优化算法，可以更灵活地处理奖励函数和策略，并且在数据效率方面与现有最先进算法相当。在模拟环境和机器人系统上进行验证。

Mar, 2017

自适应可变需求的自主路由和取货问题的多智能体强化学习

提出了一个通过自适应路由策略降低等待时间、考虑未来需求以及能够适应不同需求分布的自主汽车调度和接送框架，该框架通过线上游戏算法和线下逼近方案相结合，在美国旧金山的实际出租车需求中得到了验证。

Nov, 2022

深度强化学习在复杂环境下的机器人推和取

本文提出了一种新颖的机器人抓取系统，由气泡吸盘和机械手抓手组成。利用可供性地图提供像素级的气泡吸盘升力点候选物，并引入主动探索机制，设计了一种有效的度量来计算当前可供性地图的奖励，并使用深度 Q 网络（DQN）指导机器人手探索环境，实验结果表明，所提出的机器人抓取系统能够大大提高在混乱场景中的机器人抓取成功率。

Feb, 2023

基于深度 Q 学习的自主仓库机器人

提出采用深度强化学习和传统的 Q-learning 方法来解决仓库机器人导航，避障和产品摆放等问题，包括针对单机器人，多机器人的情况，成功在二维仿真环境中测试了模型的性能。

Feb, 2022

供应链库存管理的深度强化学习方法

本文提出使用强化学习和深度学习技术来解决供应链库存管理问题，提供了随机两阶段供应链环境的数学形式，并开发了一个公开的库，以便使用深度强化学习算法解决 SCIM 问题。实验结果表明，DRL 相对于标准的重新订购策略表现更好，因此可以被视为解决真实世界的问题的一种实用有效的选择。

Apr, 2022

动态动作空间强化学习中的行动捕捉

提出了一种智能的 Action Pick-up 算法，用于从新的和未知的动作中自主选择最有可能提高性能的有价值的动作，它利用之前的最优策略提供有用的知识和经验，具有比基线更优的学习效率。

Apr, 2023

强化学习与演示的工业装配鲁棒多模态策略：一个大规模研究

通过与基于传统工程方法的专业工业集成器的比较，研究表明基于深度强化学习的工业装配方法不仅可以超越已有的工业装配方法，还能超越人类运动系统，并且数据说明还有巨大的优化空间。

Mar, 2021

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016