Dec, 2023

增强机器人导航:单一和多目标强化学习策略的评估

TL;DR本研究通过比较分析单目标和多目标强化学习方法,针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术,包括深度 Q 网络(DQN),深度确定性策略梯度(DDPG)和双延迟 DDPG(TD3),在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而,在存在多个潜在冲突目标的复杂环境中,这些方法的局限性显现。为了解决这些局限性,我们提出了一种采用多目标强化学习(MORL)的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量,机器人学习了一种能够平衡不同目标的策略,旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力,为进一步研究可适应性和实用性更强的机器人行为奠定了基础。