语言指代表达的视频目标分割

Mar, 2018

Video Object Segmentation with Language Referring Expressions

Anna Khoreva, Anna Rohrbach, Bernt Schiele

TL;DR本文提出一种利用语言描述指定目标对象的视频目标分割方法，通过扩展图像的语言基础模型来保证时空连续的预测，实验结果表明这种基于语言监督的方法在 DAVIS'16 数据集上表现与使用像素级掩模的传统方法相同，在 DAVIS'17 数据集上表现优于使用涂鸦的方法。

Abstract

Most state-of-the-art semi-supervised video object segmentation methods rely on a pixel-accurate mask of a target object provided for the first frame of a video. However, obtaining a detailed segmentation mask is expensive and time-consuming. In this work we explore an alternative way

semi-supervised video object segmentation language referring expressions language grounding models temporally coherent predictions video object segmentation benchmarks

发现论文，激发创造

基于草图的视频对象分割：基准与分析

该论文介绍了一种新的基于草图的视频目标分割任务，相应的基准数据集和一个强基准模型。实验结果表明，与其他参考方式相比，草图参考更有效且注释效率更高。

Nov, 2023

基于标题感知的指代表达式物体分割

本文介绍了一种通过端到端可训练的理解网络，由语言和视觉编码器组成，从语言和图像领域提取特征表示，提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息，并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示，在两个数据集上评估了所提出的框架，并表明该方法在状态 - of-the-art 算法中表现良好。

Oct, 2019

RefVOS：关注视频对象分割中的指代表达

本研究提出了一种新的分类方式，评估了现有基准用于语言引导视频对象分割的任务，并分析了一个新型神经网络（RefVOS）在该任务上的表现。研究结果显示，理解视频中的动静作用是该任务的主要挑战。

Oct, 2020

SynthRef: 为目标分割生成合成指称表达式

本文提出了 SynthRef 方法和第一批包含视频对象分割合成参考表达的大规模数据集，通过使用这些合成参考表达，可以提高模型在不同数据集上的泛化能力，为对象检测或分割数据集的应用提供了可能性。

Jun, 2021

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

定位并分割：一个强大的指示物图像分割流水线

本文从 “定位 - 再分割”（LTS）的视角来看待指涉图像分割任务，并提出了一个简单有效的方法，通过提取和融合视觉和文本特征，然后在视觉 - 文本特征之间应用交互，定位被指涉的对象，并使用轻量级分割网络生成分割结果。通过可视化实验，证明该模型更易于解释和理解，且在三个流行数据集上超过以往最先进方法，是指涉图像分割的一个强有力的基准。

Mar, 2021

视频中的对象指称：基于语言和人类凝视

本研究提出了一种利用视频中物体的运动特征、人眼注视和时空语境等信息进行对象指称的新型神经网络模型，并使用一个包含 30,000 个对象的测试数据集验证了该模型的有效性。

Jan, 2018

指称表达的弱监督分割

本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG)，通过学习从图像级别的文本语句直接生成分割掩模，实现了从提及的表达式中进行图像分割，实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果，并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。

May, 2022

自然语言表达式的分割

本文提出了一个基于自然语言表达式的图像分割新问题，在此任务中，我们使用全新的终端到终端训练的递归卷积网络模型来提取像素级的分割结果，它能够同时学习处理视觉和语义信息，实验结果表明我们的方法在对自然语言表达式进行分割时能够产生更高质量的的分割效果。

Mar, 2016

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023