基于标题感知的指代表达式物体分割

Oct, 2019

基于标题感知的指代表达式物体分割

Referring Expression Object Segmentation with Caption-Aware Consistency

Yi-Wen Chen, Yi-Hsuan Tsai, Tiantian Wang, Yen-Yu Lin, Ming-Hsuan Yang

TL;DR本文介绍了一种通过端到端可训练的理解网络，由语言和视觉编码器组成，从语言和图像领域提取特征表示，提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息，并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示，在两个数据集上评估了所提出的框架，并表明该方法在状态 - of-the-art 算法中表现良好。

Abstract

referring expressions are natural language descriptions that identify a particular object within a scene and are widely used in our daily conversations. In this work, we focus on segmenting the object in an image

referring expressions segmentation comprehension network caption generation network image

发现论文，激发创造

理解引导的指示表达式

本研究探讨了自然语言生成和阅读，特别是在图像中的特定物体的指称表达。我们提出了两种方法来利用人类生成表达的理解模块，以改进表达的生成质量，并在多个基准数据集上展示了改进效果。

Jan, 2017

重新思考指称物体移除

构建了一个合成数据集 ComCOCO，其中包含了 34,615 个对象的 136,495 个自然语言表达的引用表达式，以及 23,951 个图像对的消除后的真实结果。我们进一步提出了一个端到端的语法感知混合映射网络，具有编码 - 解码结构。通过多头注意力在视觉特征的下采样过程中，以句法层次分层提取语言特征，并融合在一起。利用特征对齐的金字塔网络，生成分割掩模，并用从高层特征图中学习到的外部语义区域亲和性替换内部像素。大量实验证明，我们的模型在处理分割和修复任务的两个阶段的扩散模型和两阶段方法上，明显优于它们。

Mar, 2024

语言指代表达的视频目标分割

本文提出一种利用语言描述指定目标对象的视频目标分割方法，通过扩展图像的语言基础模型来保证时空连续的预测，实验结果表明这种基于语言监督的方法在 DAVIS'16 数据集上表现与使用像素级掩模的传统方法相同，在 DAVIS'17 数据集上表现优于使用涂鸦的方法。

Mar, 2018

指代表达理解的动态图注意力

本文探讨了语言驱动的视觉推理的问题，提出了一种动态图注意力网络来执行多步推理，并针对复杂的语言表达能力生成可解释的视觉证据。实验结果表明，所提出的方法不仅可以显着超过三个常见基准数据集上的所有现有最新算法，而且还能生成可解释的视觉证据来逐步地定位所描述的物体。

Sep, 2019

指代表达中的上下文建模

本研究旨在使用更好的视觉上下文测量标准，将对象识别和自然语言表达结合起来，从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明，我们的方法对于对象指称生成和理解都具有优势。

Jul, 2016

视觉指向表达识别：系统实际学习了什么？

本文通过对指称表达识别最先进系统的经验分析来探究这些系统处理语言和视觉的方式，并发现这些系统可能忽略语言结构，依赖于数据选择和注释过程中引入的浅层相关性。

May, 2018

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

生成和理解明确的物体描述

本文提出了一种生成图像中特定物体或区域（即指代表达）的明确描述并理解或推断所描述的物体的方法。实验表明，该方法优于之前没有考虑场景中其他潜在歧义对象而生成对象描述的方法。作者基于深度学习方法取得的最近成功，灵感提出了该方法。作者提供了一个基于 MS-COCO 的新的大规模指代表达数据集，并发布了数据集和可视化和评估工具箱。

Nov, 2015

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020