基于关系嵌入的指代表达式 grounding 表示学习

Jun, 2019

基于关系嵌入的指代表达式 grounding 表示学习

Relationship-Embedded Representation Learning for Grounding Referring Expressions

Sibei Yang, Guanbin Li, Yizhou Yu

TL;DR本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法，利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系，并将提取的信息表示为语言导向的视觉关系图。同时，我们还提出了一种 Gated Graph Convolutional Network (GGCN)，通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文，并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。

Abstract

grounding referring expressions in images aims to locate the object instance in an image described by a referring expression. It involves a joint understanding of natural language and image content, and is essential for a range of visual tasks related to human-computer interaction. As

grounding referring expressions cross-modal attention mechanism language-guided visual relation graph gated graph convolutional network multi-order relationships

发现论文，激发创造

使用组合模块化网络建模指代表达式中的关系

本文提出了一种名为组合模块网络（Compositional Modular Networks，CMNs）的深度架构，该架构能够分析指称表达式的组成部分，识别输入表达式中提及的实体和关系，并将它们统一在现场中，从而实现对这些自然语言表达式的理解和建立联系。通过在多个参考表达式数据集上进行评估，我们证明了 CMNs 技术在所有任务上优于现有技术。

Nov, 2016

跨模态检索和综合的多模式关系抽取

本研究提出了一种多模态关系抽取方法，通过检索对象、句子和整个图像的文本和视觉证据，综合考虑了同一和不同模态之间的信息，从而比现有的方法更准确地识别语义关系并显著提高了效果。

May, 2023

跨模态引导擦除的指代表达空间改进

本文提出了一种新的跨模态注意力制导抹除方法，以处理图像和指示表达之间的多种维度的视觉和文本信息，这种方法取得了三个指示表达基准数据集的最先进性能。

Mar, 2019

野外环境下的图结构指称表达推理

本研究提出了基于场景图的模块化网络 (SGMN) 来解决指代表达式的 grounding 问题，并且设计出了一个大规模实验数据集 Ref-Reasoning，证明了该方法在这个数据集上的优越性。

Apr, 2020

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

SeCG：基于跨模态图注意力的语义增强的 3D 视觉定位

3D 视觉定位是指在给定相应的文本描述时，自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难，特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG，以加强不同模态之间的关系导向映射。实验证明，相比现有的最先进方法，本方法提高了多关系挑战的本地化性能。

Mar, 2024

通过可变上下文将指代表达式与图像联系起来

本文提出了一种变分贝叶斯方法，名为变分语境，用于解决指代表达的复杂上下文建模问题，在具有监督学习和无监督学习的情况下对各种基准进行广泛实验，都得到了优秀的结果。

Dec, 2017

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了 17% 和 15% 的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

基于前缀调整的双门控融合技术用于多模态关系抽取

本文提出了一种新的多模态关系提取框架，称为 DGF-PT，该框架旨在更好地捕捉文本、实体对和图像 / 对象之间的更深层次的相关性，以挖掘更有用的信息，并且通过引入对实体类型的限制，更好地过滤候选关系。

Jun, 2023

人机交互中基于交互式视觉引导还原表达式

本文介绍了 INGRESS，它是一个机器人系统，能够按照自然语言指示拾取和放置日常物品，并使用神经网络模型的两个阶段来进行对象引用和消岐。

Jun, 2018