基于强化学习的自主机器人导航研究
提出一种广义计算图,包含基于价值的无模型方法和基于模型的方法,通过学习从原始图像中学习导航模型,实现样本高效,并利用模拟实验和实际应用验证了新方法的优越性。
Sep, 2017
本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法,以数据效率为主要目标,并使用深度 Q 学习的算法作为研究对象,理论证明了这种算法在策略改进方面的有效性,并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。
Jun, 2022
本文比较了 Deep Deterministic Policy Gradients (DDPG) 和 Soft Actor-Critic (SAC) 两种 Deep-RL 技术在无地图导航移动机器人的表现,我们通过量化数据结果展示神经网络架构对学习的影响,结果表明,随机策略映射 (SAC) 更适合于深层结构,而确定性策略映射 (DDPG) 更适合于浅层结构。
Sep, 2022
本文研究了如何使用深度强化学习和双重深度Q神经网络算法来优化无地图导航中移动机器人的导航和避障任务,并证明使用双重深度Q结构比简单Q结构更有效。
Jan, 2023
本文介绍了如何使用强化学习方法和深度 Q 网络等算法,使得机器人可以在未知环境中进行自主导航的任务。我们还利用模拟环境对机器人代理的行为和性能进行了验证和分析。
Feb, 2023
通过比较分析基于深度Q网络(DQN)算法和基于双重深度Q网络(DDQN)算法的深度强化学习(Deep-RL)策略,本研究提出了两种不同的方法,旨在增强地面移动机器人的无地图导航能力。这些方法中的智能体利用来自激光范围采样的24个测量,以及与目标的位置差异和方向相关的智能体位置数据,通过融合这些数据来影响导航决策,从而最终控制机器人的速度。实验结果表明,相比于简单的Q结构,双重深度结构显著提高了移动机器人的导航能力,且无需依赖于复杂的感知输入,如基于图像的方法。
Oct, 2023
本研究通过比较分析单目标和多目标强化学习方法,针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术,包括深度Q网络(DQN),深度确定性策略梯度(DDPG)和双延迟DDPG(TD3),在Gazebo仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而,在存在多个潜在冲突目标的复杂环境中,这些方法的局限性显现。为了解决这些局限性,我们提出了一种采用多目标强化学习(MORL)的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量,机器人学习了一种能够平衡不同目标的策略,旨在实现帕累托最优解。这项比较研究凸显了MORL在复杂、动态的机器人导航任务中的潜力,为进一步研究可适应性和实用性更强的机器人行为奠定了基础。
Dec, 2023
本研究解决了现有基于规则的自动驾驶决策方案在复杂交通场景中的局限性。采用深度强化学习模型,更加灵活地优化驾驶策略,通过对驾驶决策过程建模为强化学习问题实现自主学习。实验结果显示,基于深度强化学习的决策策略在多种驾驶任务中优于传统方法,具有更好的性能和适应性。
Aug, 2024