通过可变上下文将指代表达式与图像联系起来

CVPRDec, 2017

通过可变上下文将指代表达式与图像联系起来

Grounding Referring Expressions in Images by Variational Context

Hanwang Zhang, Yulei Niu, Shih-Fu Chang

TL;DR本文提出了一种变分贝叶斯方法，名为变分语境，用于解决指代表达的复杂上下文建模问题，在具有监督学习和无监督学习的情况下对各种基准进行广泛实验，都得到了优秀的结果。

Abstract

We focus on grounding (i.e., localizing or linking) referring expressions in images, e.g., "largest elephant standing behind baby elephant". This is a general yet challenging vision-language task since it does no

referring expressions vision-language context modeling bayesian method unsupervised learning

发现论文，激发创造

变分上下文：利用视觉和文本上下文来确定指代表达式

本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题，并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。

Jul, 2019

指代表达中的上下文建模

本研究旨在使用更好的视觉上下文测量标准，将对象识别和自然语言表达结合起来，从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明，我们的方法对于对象指称生成和理解都具有优势。

Jul, 2016

话语不够，次序至关重要：关于视觉指称表达的鲁棒性

该论文研究了视觉指代表达识别这一挑战性任务，发现现有方法未能充分利用语言结构，提出了两种增强其健壮性的方法，并提供了数据集以供使用。

May, 2020

基于关系嵌入的指代表达式 grounding 表示学习

本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法，利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系，并将提取的信息表示为语言导向的视觉关系图。同时，我们还提出了一种 Gated Graph Convolutional Network (GGCN)，通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文，并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。

Jun, 2019

利用语法将自然图片中的指代表达式与实际物体联系起来

GroundNet 是用于语言表达识别的神经网络，利用句法分析输入指代表达式以指导计算图的结构，并解析句法成分和关系，映射到神经元模块组成的图形结构以进行目标物体及相关支持物体的定位，具有更好的可解释性和鲁棒性。

May, 2018

跨模态引导擦除的指代表达空间改进

本文提出了一种新的跨模态注意力制导抹除方法，以处理图像和指示表达之间的多种维度的视觉和文本信息，这种方法取得了三个指示表达基准数据集的最先进性能。

Mar, 2019

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

视觉解释基础（扩展摘要）

本论文提出了一种新的模型，通过利用在生成的解释中的成分词的本地化接地来确保图像相关性，从而同时生成文本解释和图像。

Nov, 2017