基于语义注意力的视频指称理解中的共同基础网络

CVPRMar, 2021

基于语义注意力的视频指称理解中的共同基础网络

Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos

Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang

TL;DR本文探讨了视频中指代表达理解的问题，并提出了一种新的视角，即协同基础，通过语义关注学习提高单帧基础的准确性，并通过协同基础的特征学习提高跨帧基础的一致性。实验结果表明，该框架在视频基础数据集 VID 和 LiOTB 上生成了准确且稳定的结果，并且在 RefCOCO 数据集上的表现也得到了改善。

Abstract

In this paper, we address the problem of referring expression comprehension in videos, which is challenging due to complex expression and scene dynamics. Unlike previous methods which solve the problem in multipl

referring expression comprehension videos co-grounding semantic attention learning visual feature representations

发现论文，激发创造

单阶段对齐网络实时理解指代表达

本文提出了一种新的端到端模型 Single-Stage Grounding network（SSG），用于在图像内定位所指物体，通过多模态交互器和定位器来处理一个指代表达式，提出了引导注意机制和预测视觉属性信息来提高模型性能，并在 RefCOCO，RefCOCO + 和 RefCOCOg 数据集上进行了实验，结果表明设备效率高，能在很短时间内完成对所指物体的定位。

Dec, 2018

使用基准和共指人生成描述

提出了一种基于弱监督学习的电影描述模型，通过学习角色的可视外观和描述之间的关系来实现角色地位的划分，该模型不仅提高了生成描述的质量，还实现了角色定位，局部共指分辨率，并在 MPII 电影描述数据集上进行了评价。

Apr, 2017

利用语法将自然图片中的指代表达式与实际物体联系起来

GroundNet 是用于语言表达识别的神经网络，利用句法分析输入指代表达式以指导计算图的结构，并解析句法成分和关系，映射到神经元模块组成的图形结构以进行目标物体及相关支持物体的定位，具有更好的可解释性和鲁棒性。

May, 2018

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

指称表达的弱监督分割

本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG)，通过学习从图像级别的文本语句直接生成分割掩模，实现了从提及的表达式中进行图像分割，实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果，并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。

May, 2022

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

跨模态引导擦除的指代表达空间改进

本文提出了一种新的跨模态注意力制导抹除方法，以处理图像和指示表达之间的多种维度的视觉和文本信息，这种方法取得了三个指示表达基准数据集的最先进性能。

Mar, 2019

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018