基于互动回放的机器人导航单次强化学习
通过单次覆盖遍历记录数据,提出了一种有效地在移动机器人上快速学习面向目标导航策略的方法,并且能够在实际机器人上成功地部署,同时能够处理测试时的环境外观差异。
Jul, 2018
本文介绍了如何使用强化学习方法和深度 Q 网络等算法,使得机器人可以在未知环境中进行自主导航的任务。我们还利用模拟环境对机器人代理的行为和性能进行了验证和分析。
Feb, 2023
自主移动机器人在人类空间中导航必须遵守社会规范。本研究提出了一种使用课程学习来改善强化学习社交导航方法的泛化性能的方法。通过使用多种环境类型和多种动力学模型对行人进行建模,逐步增加训练的多样性和难度。研究结果表明,与之前的训练方法相比,使用课程学习进行训练可以取得更好的泛化性能。此外,我们还验证了训练方法在比训练中使用的更大更拥挤的测试环境中的有效性,从而对模型的性能进行更有意义的衡量。
Aug, 2023
本文提出了基于强化学习(RL)的方法来解决移动机器人在密闭空间中与行人互动的导航问题,探索了多个场景下训练准则的可复用性,并在两个真实环境的三维重建中表现出了良好的迁移能力。
Oct, 2020
本研究提出了一种采用新型模块化迁移学习模型的视觉导航统一方法。该模型可以有效地利用从一个源任务积累的经验并将其应用于多个目标任务(例如,ObjectNav、RoomNav、ViewNav)以及具有各种目标模态(例如,图像、草图、音频、标签)的目标任务,同时实现了零点经验学习,这让模型可以在不接收任何任务特定的交互式训练的情况下解决目标任务。实验结果表明,与现有最优算法相比,我们的方法可以更快地学习,实现更好的泛化,并获得了明显的性能优势。
Feb, 2022
研究机器人导航,提出了一种基于强化学习的算法,通过前期掌握的导航知识,能快速适应不同环境下的导航任务,并与经典基于规划的导航方法进行对比。
Dec, 2016
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明,该系统能够有效地学习行为。
Oct, 2023
本文提出了一种基于强化学习的路径生成(RL-PG)方法,以用于移动机器人导航,无需事先探索未知环境。该方法采用深度马尔可夫模型优化的 RL 算法生成多个预测路径点,通过运动微调模块 fine-tuning 机器人的运动以确保跟踪预测点时的安全。通过在模拟和物理平台上的部署,证明本文提出的方法有效并且其成功率更高于 DWA-RL 和传统的 APF 导航方法。
Oct, 2022
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021