基于语义地图的导航指令生成
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
使用学习方法的视觉对象导航是移动机器人的关键任务之一,本文介绍了一种在与室内环境进行混合体互动过程中形成的场景语义地图的新表示方法,该方法基于神经网络通过反向或正向图像序列上的预测融合损失值的反向传播来调整分割模型的权重。我们将此表示方法实现到一种名为 SkillTron 的完整导航方法中,该方法可以根据强化学习和基于地图的经典规划方法从端到端策略中选择机器人技能。所提出的方法能够为机器人探索制定中间目标和对象导航制定最终目标,我们在 Habitat 环境中对所提出的方法进行了大量实验,在导航质量指标方面表现出明显的优势,与现有技术方法相比。所开发的代码和使用的自定义数据集可以在 github.com/AIRI-Institute/skill-fusion 上公开获取。
Nov, 2023
利用深度学习模型,结合自然语言处理和机器人导航,使用关注模型以及环境的拓扑表示,将自由形式的自然语言指令翻译成行为机器人高级计划,能够显著优化传统方法的表现,并且探讨了环境地图作为知识库来促进自由形式导航指令翻译的可能性。
Sep, 2018
通过室内环境中的具身导航,提出了一种语义区域绘图的方法,通过视觉 - 语言模型向导绘图,将自身场景理解映射到全局框架上,生成具有高级代理知识的语义地图,实现自主地图生成。在逼真模拟器的实验中,该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。
Mar, 2024
利用语音指令完成机器人自主导航的一个重要任务是构建具备层级空间表示能力的智能移动机器人。为此,研究者提出了一种基于概率生成模型的层级空间表示方法 SpCoTMHP,并相应的提出了一种路径规划方法,实现了机器人与人类之间的交互通信,提高了导航性能和降低了计算成本。
Mar, 2022
本研究主要探讨了如何在复杂环境下使用语义视觉导航技术,通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策,并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。
May, 2018
本文提出了一种通过主动学习生成语义地图的框架,在未知环境下实现目标物体导航,通过在未观察区域内的语义类别的不确定性进行决策,实现了对场景中语义优先级的学习,并在 Matterport3D 数据库上验证了改进的导航效果。
Jun, 2021
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
本文介绍了地图 - 语言导航任务,引入了基于给定三维语义地图的自然语言指令的路径规划和区分模型 (iPPD),并提出了适用于语义地图的新型路径特征编码方案和基于注意力机制的语言驱动鉴别器,相较于单步贪婪决策方法和单步模仿学习方法,在未知环境中具有 17% 的导航成功率和 0.18 的路径匹配度的性能提升。
Mar, 2022
该研究发现 BLEU、ROUGE、METEOR 和 CIDEr 指标无法有效评估基于视觉与语言的导航生成器自动生成的导航指令,提出了一种不依赖参考指令的指令 - 轨迹相容性模型,并建议在有参考指令时使用 SPICE 进行评估。
Jan, 2021