语义地图网络:从自我视角构建客观语义地图和表征
我们研究了通过实体巡游进行的 3D 多目标重新识别任务,提出了 3D Semantic MapNet (3D-SMNet) 模型,它包括一个操作于 RGB-D 视频的 3D 物体检测器和一个可微的物体匹配模块,通过生成的实验和真实数据的联合训练,在真实世界的重新布置场景中取得了显著的改进。
Mar, 2024
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
通过室内环境中的具身导航,提出了一种语义区域绘图的方法,通过视觉 - 语言模型向导绘图,将自身场景理解映射到全局框架上,生成具有高级代理知识的语义地图,实现自主地图生成。在逼真模拟器的实验中,该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。
Mar, 2024
提出了一种名为 MapNet 的深度神经网络,它将地图表示为一种数据驱动的方式,利用视觉里程计和 GPS 等常见的传感器数据来建立约束关系,从而提高相机定位的精确度和实现自监督式更新。在室内和室外数据集上进行的实验表明,该方法相较于之前的工作在性能上有了显著的提高。
Dec, 2017
使用卷积神经网络和密集同时定位和建图(SLAM)系统来将视觉感知转化为语义映射,实现在室内 RGB-D 视频帧之间的长期稠密对应以及在多个视点上的概率融合,从而生产有用的 3D 语义地图。
Sep, 2016
本文讨论了智能机器人如何同时理解环境的几何和语义属性,以构建包含物体级别实体和基于点或网格的几何表示的环境地图。作者的系统结合 RGB-D SLAM、深度学习目标检测和 3D 非监督分割等技术,同时构建几何点云模型和包含这些物体模型的地图。
Sep, 2016
提出了一种基于 2D 和 3D SLAM 网络结合的实时语义地图方法,通过重新投影及渲染后进行特征融合,以及一种利用表面法线的几何分割方法来整合 3D 语义元素,并使用新型的神经网络进行轻量级的语义地图后处理,实现了在不同深度感应器方面的性能表现和交叉传感器通用性方面的优化。
Jun, 2023
利用多个自我视角的、来自多方的对话视频,结合深度强化学习的方法,高效地构建出未知 3D 环境的地图,达到了出色的性价比,优于以往最先进的方法。
Jan, 2023
该研究提出了一种基于变分自编码器的语义表示方法,实现了对三维语义地图的实时增量建立与空间一致的语义标签融合,可以用于单目关键帧语义映射系统,并能够实现对位姿、几何和语义的联合优化。
Mar, 2019
本文介绍了一个基于不同 iable mapping 和端到端学习的神经网络架构(Differentiable Mapping Network,DMN),用于机器人的制图和定位任务,特别是在只有少量观测数据的情况下。作者将 DMN 应用于稀疏的可视化定位任务中,并在模拟和真实世界数据上进行了评估,证明了 DMN 在视觉定位中学习有效的地图表示的优点。
May, 2020