邻域监视：基于语言引导图注意力网络的指代表达理解

Dec, 2018

邻域监视：基于语言引导图注意力网络的指代表达理解

Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks

Peng Wang, Qi Wu, Jiewei Cao, Chunhua Shen, Lianli Gao...

TL;DR该论文介绍了一种基于图形注意力机制的自然语言处理方法，用于解决指代表达理解问题并确定图像中对象的本地化，实验表明该方法具有优势。

Abstract

The task in referring expression comprehension is to localise the object instance in an image described by a referring expression phrased in natural language. As a language-to-vision matching task, the key to this problem is to learn a discriminative object feature that can adapt to th

发现论文，激发创造

并行关注：通过对话和查询实现视觉对象发现的统一框架

提出了一个基于多类型注意力机制的网络框架，可以在自然语言对话中，基于变长的自然语言表述，快速准确地识别图像中被指称的对象，该方法在多个基准测试集上性能卓越。

Nov, 2017

MAttNet: 模块化注意力网络用于指代表达理解

本文提出了一种通过使用模块化组件和多种注意力机制，实现对自然语言描述的图像区域定位的方法，该方法在特征抽象、指向性和篮球场景等任务中都优于以往最先进的模型。

Jan, 2018

单阶段对齐网络实时理解指代表达

本文提出了一种新的端到端模型Single-Stage Grounding network（SSG），用于在图像内定位所指物体，通过多模态交互器和定位器来处理一个指代表达式，提出了引导注意机制和预测视觉属性信息来提高模型性能，并在RefCOCO，RefCOCO +和RefCOCOg数据集上进行了实验，结果表明设备效率高，能在很短时间内完成对所指物体的定位。

Dec, 2018

一种用于指代表达理解的实时跨模态相关性滤波方法

本论文提出了一种新的Realtime Cross-modality Correlation Filtering方法(RCCF)，将指称表达理解重新表述为一种相关滤波过程，使得物体的定位更准确，在RefClef、RefCOCO、RefCOCO+和RefCOCOg基准测试中取得领先的性能，通过RCCF方法，我们的模型可以在40 FPS的速度下实现了超过之前最好结果的性能。

Sep, 2019

指代表达理解的动态图注意力

本文探讨了语言驱动的视觉推理的问题，提出了一种动态图注意力网络来执行多步推理，并针对复杂的语言表达能力生成可解释的视觉证据。实验结果表明，所提出的方法不仅可以显着超过三个常见基准数据集上的所有现有最新算法，而且还能生成可解释的视觉证据来逐步地定位所描述的物体。

Sep, 2019

基于标题感知的指代表达式物体分割

本文介绍了一种通过端到端可训练的理解网络，由语言和视觉编码器组成，从语言和图像领域提取特征表示，提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息，并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示，在两个数据集上评估了所提出的框架，并表明该方法在状态-of-the-art算法中表现良好。

Oct, 2019

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020

野外环境下的图结构指称表达推理

本研究提出了基于场景图的模块化网络(SGMN)来解决指代表达式的 grounding 问题，并且设计出了一个大规模实验数据集Ref-Reasoning，证明了该方法在这个数据集上的优越性。

Apr, 2020

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

利用语言适应性推理进行指代表达理解

本文提出了一种名为语言自适应动态子网（LADS）的框架，可以从REC模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网，推理可以更加经济高效，实验证明该方法可以在RefCOCO、RefCOCO +、RefCOCOg和Referit上提高推理速度和准确率。

Jun, 2023