SeCG：基于跨模态图注意力的语义增强的 3D 视觉定位

Mar, 2024

SeCG：基于跨模态图注意力的语义增强的 3D 视觉定位

SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention

Feng Xiao, Hongbin Xu, Qiuxia Wu, Wenxiong Kang

TL;DR3D 视觉定位是指在给定相应的文本描述时，自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难，特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG，以加强不同模态之间的关系导向映射。实验证明，相比现有的最先进方法，本方法提高了多关系挑战的本地化性能。

Abstract

3d visual grounding aims to automatically locate the 3D region of the specified object given the corresponding textual description. Existing works fail to distinguish similar objects especially when multiple referred objects are involved in the description. Experiments show that direct

3d visual grounding cross-modal alignment referential relationships semantic-enhanced relational learning model localization performance

发现论文，激发创造

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

SceneGraphLoc: 跨模态粗略基于 3D 场景图的视觉定位

这篇论文介绍了一个新问题，即在由 3D 场景图数据库表示的多模式参考地图中定位输入图像。通过学习场景图中每个节点的固定大小嵌入，该方法提供了一种轻量级且高效的替代方法，以有效地匹配输入查询图像中可见的对象实例，实现了超出其他跨模态方法的性能表现，并在使用图像时实现了与大型图像数据库依赖的最先进技术相当的性能，同时存储效率提高了三个数量级并且运行速度加快了几个数量级。

Mar, 2024

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

蒸馏粗粒到精粒语义匹配知识用于弱监督的三维视觉接地

利用弱监督注释学习 3D 视觉定位模型，通过分析对象提案和句子之间的语义相似性，我们构建了一个语义匹配模型，将粗粒度的场景 - 句子对应关系用于学习目标 - 句子链接。同时，我们将粗精度的语义匹配知识融入经典的两阶段 3D 视觉定位模型，以减少推理成本并提高性能。通过在 ScanRefer、Nr3D 和 Sr3D 上进行广泛实验证明了我们提出方法的有效性。

Jul, 2023

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

使用图形注意力学习图像文本匹配的双重语义关系

本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法，该方法主要由两个模块组成，分别进行不同层次的语义关系学习，从而提高图像文本匹配的准确性，并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。

Oct, 2020

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

多层级多模态共享语义空间用于图像 - 短语对齐

本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法，通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间，在其中进行图像和文本之间的相关性计算，通过多级多模态注意力机制来指导模型，实现了在图像语句配对的协同注意力下的短语本地化，相比先前最先进的方法性能提升了 20%-60%，并在公共基准数据集上有了新的性能纪录。

Nov, 2018

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

基于语义图嵌入的跨模态注意力模型用于多标记分类

该研究提出了一种使用跨模态关注力和语义图嵌入的方法来进行多标签分类，该方法能够有效捕获标签之间的空间或时间依赖关系，并发现每个类的具有区分性特征的位置，实验结果表明该方法优于现有的最先进技术。

Dec, 2019