利用丰富语义表示的面向对象的视觉导航目标
本研究主要探讨了如何在复杂环境下使用语义视觉导航技术,通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策,并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。
May, 2018
本文提出了一种基于多智能体协作的视觉语义导航方法,通过分层决策框架、场景先验知识和通信机制,可以使多个机器人协同完成探索任务,并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。
Sep, 2021
本文研究了在复杂的家庭环境中,物体和房间之间的内在关系是否有助于视觉导航任务中的智能体。我们通过一个新的降低训练难度的数据集提出了一种基于关注力机制的模型,该模型可以定量地利用场景和物体之间的相关性,从而能够实现导航模型的快速训练和更好的性能。
Aug, 2020
本文提出了一种通过主动学习生成语义地图的框架,在未知环境下实现目标物体导航,通过在未观察区域内的语义类别的不确定性进行决策,实现了对场景中语义优先级的学习,并在 Matterport3D 数据库上验证了改进的导航效果。
Jun, 2021
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
通过室内环境中的具身导航,提出了一种语义区域绘图的方法,通过视觉 - 语言模型向导绘图,将自身场景理解映射到全局框架上,生成具有高级代理知识的语义地图,实现自主地图生成。在逼真模拟器的实验中,该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。
Mar, 2024
使用学习方法的视觉对象导航是移动机器人的关键任务之一,本文介绍了一种在与室内环境进行混合体互动过程中形成的场景语义地图的新表示方法,该方法基于神经网络通过反向或正向图像序列上的预测融合损失值的反向传播来调整分割模型的权重。我们将此表示方法实现到一种名为 SkillTron 的完整导航方法中,该方法可以根据强化学习和基于地图的经典规划方法从端到端策略中选择机器人技能。所提出的方法能够为机器人探索制定中间目标和对象导航制定最终目标,我们在 Habitat 环境中对所提出的方法进行了大量实验,在导航质量指标方面表现出明显的优势,与现有技术方法相比。所开发的代码和使用的自定义数据集可以在 github.com/AIRI-Institute/skill-fusion 上公开获取。
Nov, 2023
我们针对导航问题进行研究,提出了一种使用空间语义元素的神经代理导航模型,并探究了它们对导航代理的推理能力的影响。研究结果表明,指令中显式建模空间语义元素可以改善模型的基础和空间推理能力,并在已见及未见环境上取得了竞争性的性能。
May, 2021