语义地图网络：从自我视角构建客观语义地图和表征

Oct, 2020

语义地图网络：从自我视角构建客观语义地图和表征

Semantic MapNet: Building Allocentric Semantic Maps and Representations from Egocentric Views

Vincent Cartillier, Zhile Ren, Neha Jain, Stefan Lee, Irfan Essa...

TL;DR本文研究了使用 RGB-D 摄像机生成半自主构建环境场所的含义地图，提出 SemanticMapNet，结合了摄像机几何和神经表示学习，可在自主导览、物品寻找和对环境的问题回答等任务中有更好的表现。

Abstract

We study the task of semantic mapping - specifically, an embodied agent (a robot or an egocentric AI assistant) is given a tour of a new environment and asked to build an allocentric top-down semantic map ("what is where?") from egocentric observations of an →

semantic mapping rgb-d camera allocentric top-down map neural representation learning spatio-semantic allocentric representation

发现论文，激发创造

3D 语义地图网络：3D 多目标重新识别中的地图构建

我们研究了通过实体巡游进行的 3D 多目标重新识别任务，提出了 3D Semantic MapNet (3D-SMNet) 模型，它包括一个操作于 RGB-D 视频的 3D 物体检测器和一个可微的物体匹配模块，通过生成的实验和真实数据的联合训练，在真实世界的重新布置场景中取得了显著的改进。

Mar, 2024

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

在室内环境中进行高层语义区域划分而无需物体识别

通过室内环境中的具身导航，提出了一种语义区域绘图的方法，通过视觉 - 语言模型向导绘图，将自身场景理解映射到全局框架上，生成具有高级代理知识的语义地图，实现自主地图生成。在逼真模拟器的实验中，该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。

Mar, 2024

几何感知学习用于相机定位的地图

提出了一种名为 MapNet 的深度神经网络，它将地图表示为一种数据驱动的方式，利用视觉里程计和 GPS 等常见的传感器数据来建立约束关系，从而提高相机定位的精确度和实现自监督式更新。在室内和室外数据集上进行的实验表明，该方法相较于之前的工作在性能上有了显著的提高。

Dec, 2017

SemanticFusion：基于卷积神经网络的密集 3D 语义地图构建

使用卷积神经网络和密集同时定位和建图（SLAM）系统来将视觉感知转化为语义映射，实现在室内 RGB-D 视频帧之间的长期稠密对应以及在多个视点上的概率融合，从而生产有用的 3D 语义地图。

Sep, 2016

面向对象语义地图的有意义地图绘制

本文讨论了智能机器人如何同时理解环境的几何和语义属性，以构建包含物体级别实体和基于点或网格的几何表示的环境地图。作者的系统结合 RGB-D SLAM、深度学习目标检测和 3D 非监督分割等技术，同时构建几何点云模型和包含这些物体模型的地图。

Sep, 2016

使用潜在先验网络和准平面分割的实时语义映射

提出了一种基于 2D 和 3D SLAM 网络结合的实时语义地图方法，通过重新投影及渲染后进行特征融合，以及一种利用表面法线的几何分割方法来整合 3D 语义元素，并使用新型的神经网络进行轻量级的语义地图后处理，实现了在不同深度感应器方面的性能表现和交叉传感器通用性方面的优化。

Jun, 2023

Chat2Map：多自我对话中高效的场景映射

利用多个自我视角的、来自多方的对话视频，结合深度强化学习的方法，高效地构建出未知 3D 环境的地图，达到了出色的性价比，优于以往最先进的方法。

Jan, 2023

使用学习编码的场景表示进行单目密集语义重建

该研究提出了一种基于变分自编码器的语义表示方法，实现了对三维语义地图的实时增量建立与空间一致的语义标签融合，可以用于单目关键帧语义映射系统，并能够实现对位姿、几何和语义的联合优化。

Mar, 2019

可微映射网络：学习结构化映射表示以实现稀疏视觉定位

本文介绍了一个基于不同 iable mapping 和端到端学习的神经网络架构（Differentiable Mapping Network，DMN），用于机器人的制图和定位任务，特别是在只有少量观测数据的情况下。作者将 DMN 应用于稀疏的可视化定位任务中，并在模拟和真实世界数据上进行了评估，证明了 DMN 在视觉定位中学习有效的地图表示的优点。

May, 2020