SceneGraphLoc: 跨模态粗略基于 3D 场景图的视觉定位

Mar, 2024

SceneGraphLoc: 跨模态粗略基于 3D 场景图的视觉定位

SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs

Yang Miao, Francis Engelmann, Olga Vysotska, Federico Tombari, Marc Pollefeys...

TL;DR这篇论文介绍了一个新问题，即在由 3D 场景图数据库表示的多模式参考地图中定位输入图像。通过学习场景图中每个节点的固定大小嵌入，该方法提供了一种轻量级且高效的替代方法，以有效地匹配输入查询图像中可见的对象实例，实现了超出其他跨模态方法的性能表现，并在使用图像时实现了与大型图像数据库依赖的最先进技术相当的性能，同时存储效率提高了三个数量级并且运行速度加快了几个数量级。

Abstract

We introduce a novel problem, i.e., the localization of an input image within a multi-modal reference map represented by a database of 3d scene g

localization multi-modal reference map 3d scene graphs cross-modal methods storage efficiency

发现论文，激发创造

SeCG：基于跨模态图注意力的语义增强的 3D 视觉定位

3D 视觉定位是指在给定相应的文本描述时，自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难，特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG，以加强不同模态之间的关系导向映射。实验证明，相比现有的最先进方法，本方法提高了多关系挑战的本地化性能。

Mar, 2024

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

CurriculumLoc: 通过多阶段改进增强跨领域地理定位

视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案，取得了高召回率的好成绩。

Nov, 2023

MeshLoc：基于网格的视觉定位

通过探索一种基于密集三维网格的更为灵活的方法，本文旨在解决基于图像的特征匹配对在构建场景表示上造成的代价，并通过在渲染场景几何图形时提取特征的方式，展示了这一方法达到了最新成果。结果表明，基于密集三维模型的表示是现有表示的一种有前途的替代方案，并且为未来研究提出了有趣而具有挑战性的方向。

Jul, 2022

具有图神经嵌入的主动语义定位

本研究提出了一个轻量级、全 CPU 基于的 “图神经本地化器” 框架，旨在解决语义定位问题。该框架结合了场景图和图神经网络技术，首先训练了一个场景图分类器用于被动视觉，然后将其知识转移到强化学习规划器用于主动视觉。实验表明，该方法在自我监督学习和无监督域适应两个场景下都具有效果。

May, 2023

基于场景图的图像 - 文本检索融合网络

本研究提出了一种基于场景图融合网络的图像 - 文本检索方法，通过内部和交叉模态融合来增强图像 / 文本特征，并采用层次化的融合注意力来将语义信息嵌入到图像 / 文本特征向量之中，进而进行图像 - 文本的检索任务。实验结果表明，本方法相比其他现有技术，在公开数据集 Flickr30K 和 MSCOCO 上取得了更好的效果。

Mar, 2023

从 3D 室内重建学习 3D 语义场景图

本文提出了一种基于场景图的三维场景理解方法，它将场景中的实体组织成图形式，运用基于 PointNet 和 Graph Convolutional Networks（GCN）的学习方法实现了场景图的回归，并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。

Apr, 2020

SceneGraphNet：神经信息传递用于三维室内场景增强

本文提出了一种神经传递信息的方法来与其环境相匹配的新物体进行增强，该方法能够预测适合位置的物体类型的概率分布，并在密集图中传递学习消息来处理物体相之间的空间和结构关系，通过注意机制加权消息，在 SUNCG 数据集中比其他方法更准确地预测场景中缺失的物体，并展示了基于此方法的其他应用，包括基于上下文的 3D 对象识别和迭代场景生成。

Jul, 2019

语义视觉定位

该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题，该方法使用生成模型进行描述符学习，并在语义场景补全作为辅助任务进行训练，以使得生成的三维描述符具有鲁棒性，并能够实现在极端视角，光照和几何变化下的可靠定位。

Dec, 2017