跨模态引导擦除的指代表达空间改进
本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法,利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系,并将提取的信息表示为语言导向的视觉关系图。同时,我们还提出了一种 Gated Graph Convolutional Network (GGCN),通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文,并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。
Jun, 2019
3D 视觉定位是指在给定相应的文本描述时,自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难,特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG,以加强不同模态之间的关系导向映射。实验证明,相比现有的最先进方法,本方法提高了多关系挑战的本地化性能。
Mar, 2024
本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG),通过学习从图像级别的文本语句直接生成分割掩模,实现了从提及的表达式中进行图像分割,实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果,并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。
May, 2022
本文提出了一种跨模态自注意模块 (CMSA),可以有效地捕捉语言和视觉特征之间的长距离依赖关系,并且采用门控多层融合模块,以选择性地集成不同级别的特征。在多个数据集上的验证表明,我们的方法在图像分割任务上显著优于现有的最先进的方法。
Apr, 2019
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019
本次研究提出了一个基于 transformer 架构的单阶段多任务模型,通过融合视觉和语言输入,实现了高度语义转换的视觉语言解析,通过上下文信息和多任务学习,该模型在包括命名实体识别等任务上,取得了比现有方法更加突出的性能优势。
Jun, 2021
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
本文提出了一种变分贝叶斯方法,名为变分语境,用于解决指代表达的复杂上下文建模问题,在具有监督学习和无监督学习的情况下对各种基准进行广泛实验,都得到了优秀的结果。
Dec, 2017
本文提出了一种基于自然语言监督的跨模态领域泛化方法,利用视觉和文本交互的表征来实现高级别类别判别的信息融合,并使用可解释的模型来生成解释,从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。
Jul, 2022
本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题,并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。
Jul, 2019