InstructNav:零封闭的通用指令导航系统在未知环境中
我们提出了一种基于动作感知的零样本图像与语言导航(ZS-VLN)方法($A^2$Nav),通过利用基础模型的视觉和语言能力,将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务,然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略,以便按顺序执行这些子任务,从而实现导航指令的完整执行。实验证明,$A^2$Nav 在零样本图像与语言导航方面具有很好的性能,并且在 R2R-Habitat 和 RxR-Habitat 数据集上甚至超过了监督学习方法。
Aug, 2023
利用深度学习模型,结合自然语言处理和机器人导航,使用关注模型以及环境的拓扑表示,将自由形式的自然语言指令翻译成行为机器人高级计划,能够显著优化传统方法的表现,并且探讨了环境地图作为知识库来促进自由形式导航指令翻译的可能性。
Sep, 2018
该研究提出了一种导航指南模型,使机器人能够生成自然语言指令,帮助人们在事先未知的环境中进行导航,该模型使用人类演示数据通过反向强化学习训练决策策略,并通过神经序列到序列模型从自然语料库中生成自由形式的语句,实验测评表明,在与人类参考指令进行比较时,该方法获得了 72.18% 的 BLEU 分数,并且缩小了人类与机器人交互时的差距。
Oct, 2016
Zero-Shot Object Navigation (ZSON) mainly focuses on following individual instructions to find generic object classes, while Zero-shot Interactive Personalized Object Navigation (ZIPON) introduces Open-woRld Interactive persOnalized Navigation (ORION) framework that uses Large Language Models (LLMs) to navigate to personalized goal objects while engaging in conversations with users, showing significant improvement with interactive agents that can leverage user feedback, but the balance between task completion and the efficiency of navigation and interaction remains challenging.
Oct, 2023
通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在 R2R 数据集上实现了约 7%的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。
Mar, 2024
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。
Oct, 2022
使用语言指导下的路径规划,研究机器人领域中的导航方式和交互问题。通过变换不同的机器学习模型,来探索不同的路径预测方法,并发现在 navigation metrics 上,更具表现力的模型能够帮助机器人找到更优秀、更简单、更快速的路径,而低层动作则能够通过近似最短路径来获取更好的路径规划结果。
Oct, 2021
本文提出了一种层次化学习方法,包括高层的规划和记忆以及低层的房间导航和物品寻找,通过简单的合成语言为代理提供指令,同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。
Nov, 2022
该研究发现 BLEU、ROUGE、METEOR 和 CIDEr 指标无法有效评估基于视觉与语言的导航生成器自动生成的导航指令,提出了一种不依赖参考指令的指令 - 轨迹相容性模型,并建议在有参考指令时使用 SPICE 进行评估。
Jan, 2021