MICRACLE: 人类启发的移动机器人导航的逆强化学习和课程学习模型
该研究提出了一种导航指南模型,使机器人能够生成自然语言指令,帮助人们在事先未知的环境中进行导航,该模型使用人类演示数据通过反向强化学习训练决策策略,并通过神经序列到序列模型从自然语料库中生成自由形式的语句,实验测评表明,在与人类参考指令进行比较时,该方法获得了 72.18% 的 BLEU 分数,并且缩小了人类与机器人交互时的差距。
Oct, 2016
自主移动机器人在人类空间中导航必须遵守社会规范。本研究提出了一种使用课程学习来改善强化学习社交导航方法的泛化性能的方法。通过使用多种环境类型和多种动力学模型对行人进行建模,逐步增加训练的多样性和难度。研究结果表明,与之前的训练方法相比,使用课程学习进行训练可以取得更好的泛化性能。此外,我们还验证了训练方法在比训练中使用的更大更拥挤的测试环境中的有效性,从而对模型的性能进行更有意义的衡量。
Aug, 2023
本研究介绍了一种新的算法 BNBRL+,基于部分可观测的马尔科夫决策过程框架评估不可见区域的风险,并在不确定性下制定移动策略,通过将信念算法与贝叶斯神经网络相结合,根据人类的定位数据以概率推断信念,进一步整合机器人、人类和推断信念之间的动力学,确定导航路径并将社交规范嵌入奖励函数中,从而促进了社会感知导航。通过在各种风险环境中进行实验,验证了 BNBRL + 在导航拥挤环境中具有盲区时的有效性。模型在能见度受限的空间中有效导航并动态避开障碍物的能力可以显著提高自动驾驶车辆的安全性和可靠性。
Mar, 2024
通过基于单次环境遍历构建交互世界模型、预训练视觉特征编码器和随机环境增强的方法,提出了一种在移动机器人上学习导航到固定目标并在已知环境中进行零样本迁移的方法。该方法成功应用于真实环境变化下的导航问题,避免了过拟合问题。
Nov, 2017
利用逆强化学习 (IRL) 探索了在机械血栓切除 (MT) 血管中实现自主导航的可行性,通过利用专家演示推断奖励函数并采用软演员 - 评论家算法 (soft actor-critic) 进行模型训练,结果表明通过奖励塑造来训练模型可以改进 MT 的可用性和精确性。
Jun, 2024
移动机器人在各种拥挤场合中得到广泛应用,社会接受的导航行为是可扩展应用和人类认可的必要条件。深度强化学习方法被用于学习机器人的导航策略和模拟机器人与人类之间的复杂互动。通过在与人类互动的环境中训练深度强化学习策略,我们提出了一种新颖的社会整合导航方法,该方法适应性地产生机器人的社会行为,并且在距离行驶、完成时间和对环境中所有代理的负面影响方面优于社会感知方法。
Mar, 2024
本文介绍了一种名为进化课程训练的新方法,以应对机器人避碰中经常出现的一些挑战,包括在结构化环境中适应多种行人,本方法能够提高深度强化学习模型在此类复杂场景中的成功率和降低平均碰撞率。
Jun, 2023
本文提出了基于强化学习(RL)的方法来解决移动机器人在密闭空间中与行人互动的导航问题,探索了多个场景下训练准则的可复用性,并在两个真实环境的三维重建中表现出了良好的迁移能力。
Oct, 2020
教授自主移动机器人在人群中成功导航是一项具有挑战性的任务,该论文采用神经网络来学习机器人在现场的特定策略,以考虑人类行为和对真实机器人的反应,同时针对各种情景学习相应策略,并对方法、实验结果进行了定量评估。
Apr, 2024
本文提出了一个新的学习框架,使得机器人可以成功地遵循自然语言路线指令,而无需任何先前环境的知识。该算法利用通过命令传达给机器人的空间和语义信息来学习关于空间扩展环境的度量和语义属性的分布,并将自然语言指令解释为关于预期行为的分布。通过对地图和状态分布进行推理,使用模仿学习的新型置信空间规划器直接求解策略,我们在可声控轮椅上评估了我们的框架。结果表明,通过学习和推理潜在的环境模型,该算法能够成功地遵循新颖的扩展环境中的自然语言路线指令。
Mar, 2015