本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题,并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。
Jul, 2019
本研究旨在使用更好的视觉上下文测量标准,将对象识别和自然语言表达结合起来,从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明,我们的方法对于对象指称生成和理解都具有优势。
Jul, 2016
该论文研究了视觉指代表达识别这一挑战性任务,发现现有方法未能充分利用语言结构,提出了两种增强其健壮性的方法,并提供了数据集以供使用。
May, 2020
本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法,利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系,并将提取的信息表示为语言导向的视觉关系图。同时,我们还提出了一种 Gated Graph Convolutional Network (GGCN),通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文,并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。
Jun, 2019
GroundNet 是用于语言表达识别的神经网络,利用句法分析输入指代表达式以指导计算图的结构,并解析句法成分和关系,映射到神经元模块组成的图形结构以进行目标物体及相关支持物体的定位,具有更好的可解释性和鲁棒性。
May, 2018
本文提出了一种新的跨模态注意力制导抹除方法,以处理图像和指示表达之间的多种维度的视觉和文本信息,这种方法取得了三个指示表达基准数据集的最先进性能。
Mar, 2019
本次研究提出了一个基于 transformer 架构的单阶段多任务模型,通过融合视觉和语言输入,实现了高度语义转换的视觉语言解析,通过上下文信息和多任务学习,该模型在包括命名实体识别等任务上,取得了比现有方法更加突出的性能优势。
Jun, 2021
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019
本研究提出了一种新的上下文感知弱监督学习方法,它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中,以更准确地表述和匹配物体,并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明,本文所提出的弱强化框架比以前的方法具有更好的算法性能,Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27%和 37.68%。
Mar, 2021
本论文提出了一种新的模型,通过利用在生成的解释中的成分词的本地化接地来确保图像相关性,从而同时生成文本解释和图像。
Nov, 2017