ReProHRL: 多目标导航中的层级代理在真实环境中的应用

AAAIAug, 2023

ReProHRL: 多目标导航中的层级代理在真实环境中的应用

ReProHRL: Towards Multi-Goal Navigation in the Real World using Hierarchical Agents

Tejaswini Manjunath, Mozhgan Navardi, Prakhar Dixit, Bharat Prakash, Tinoosh Mohsenin

TL;DR我们提出了一种名为 Ready for Production Hierarchical RL（ReProHRL）的方法，它通过强化学习来划分具有层次结构的多目标导航任务，并使用物体检测器作为预处理步骤来学习多目标导航并将其转移到真实世界中，实证结果表明，所提出的 ReProHRL 方法在模拟和真实环境中的训练时间和性能方面均优于最先进的基线方法。

Abstract

robots have been successfully used to perform tasks with high precision. In real-world environments with sparse rewards and multiple goals, learning is still a major challenge and reinforcement learning (RL) algo

robots reinforcement learning hierarchical multi-goal navigation object detectors real-world implementation

发现论文，激发创造

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

城市环境中安全互动自主驾驶的想象增强分层强化学习方法

通过引入想象增强的分层强化学习算法，我们设计了一种新的导航算法，使得智能体能够在真实世界的导航任务中学习安全和交互的行为，提高了成功率并减少了平均步骤的数量。

Nov, 2023

异构机器人系统中的目标搜索与导航优化深度强化学习

在未知环境中设计了由无人机和无人地面车组成的异构机器人系统，通过深度强化学习算法学习的策略，该系统能够在迷宫状的矿山环境中搜索目标并导航到目标；通过引入多阶段强化学习框架和好奇心模块，促使机器人探索未访问的环境；在仿真环境中的实验证明我们的框架能够训练异构机器人系统完成未知目标位置的搜索和导航任务，而现有基线模型可能无法做到，并且加速训练速度。

Aug, 2023

在真实环境中使用混合策略进行多目标导航

我们提出了一种混合导航方法，将多对象导航（Multi-ON）任务分解为两个不同的技能：（1）使用经典 SLAM 和符号规划器处理航路点导航，而（2）使用结合监督学习和强化学习训练的深度神经网络处理探索、语义建图和目标检索，我们展示了该方法在模拟和真实环境中相对于端到端方法的优势，并超越了该任务的最先进技术。

Jan, 2024

使用移动机器人的交互式导航的分层强化学习

提出了一种新型的分层强化学习架构 HRL4IN，用于解决包含导航和操作任务的具有异构性的交互式导航任务问题，并且能够提高能源效率。在 2D 网格世界环境和 3D 物理仿真环境中，HRL4IN 相对于平面 PPO 和 HAC 等算法，在任务性能和能源效率方面的表现明显优于其他基线算法。

Oct, 2019

采用分层式 Sim2Real 实现的多智能体运动操控

采用强化学习方法通过层次性模拟实现在多移动机器人协作下的操纵行为。

Aug, 2019

多目标强化学习：挑战机器人环境与研究请求

介绍了一组具有挑战性的连续控制任务，并提出了许多改进强化学习算法的研究思路。

Feb, 2018

使用强化学习在限制的行人环境下实现机器人导航

本文提出了基于强化学习（RL）的方法来解决移动机器人在密闭空间中与行人互动的导航问题，探索了多个场景下训练准则的可复用性，并在两个真实环境的三维重建中表现出了良好的迁移能力。

Oct, 2020

对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏（PEG）中规划机动任务展开研究。我们提出了一种分层架构，将高层扩散模型与低层强化学习算法结合，分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索，并提高了可解释性和预测能力，相较于基准模型的表现提高了 51.2%。

Mar, 2024

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023