使用语言查询进行视频对象分割

CVPRJan, 2022

Language as Queries for Referring Video Object Segmentation

Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo

TL;DR该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Abstract

Referring video object segmentation (R-VOS) is an emerging cross-modal task that aims to segment the target object referred by a language expression in all video frames. In this work, we propose a simple and unified framework built upon →

video object segmentation transformer referformer language queries dynamic kernels

发现论文，激发创造

从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案，其中构建了一组详尽的对象 tracklets，并提出了一种 Transformer-based tracklet-language grounding 模块，模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。

Jun, 2021

在线 Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences，结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩，优于所有其他离线方法。

Jul, 2023

RefVOS：关注视频对象分割中的指代表达

本研究提出了一种新的分类方式，评估了现有基准用于语言引导视频对象分割的任务，并分析了一个新型神经网络（RefVOS）在该任务上的表现。研究结果显示，理解视频中的动静作用是该任务的主要挑战。

Oct, 2020

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

全程 Transformer 装备的端到端指代视频物体分割

提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架，通过学习 mask 序列解决视频中物体的分割问题，并通过 Stacked Transformer 来捕捉物体级别的空间上下文。

Sep, 2023

第一名解决方案：第五届 LSVOS 挑战赛 - 视频对象引用分割

通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合，提出了一种有效的模式，该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F，在测试集上实现了 70% 的 J&F，在第 5 届大规模视频对象分割挑战（ICCV 2023）的第 3 组中排名第一。

Jan, 2024

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

多模态变换器的端到端指代视频对象分割

本文提出了一种名为 Multimodal Tracking Transformer（MTTR）的基于 Transformer 的方法来实现 referring video object segmentation（RVOS）任务，该方法将视频和文本结合起来处理，不依赖于复杂的流水线，并且在标准基准测试中显著优于以前的方法。

Nov, 2021

从弱监督的注释中学习视频物体指代分割

基于一种新的注释方案，我们提出了一种弱监督的方法，通过语言引导的动态过滤器和双层对比学习方法，实现了在不要求密集标注的情况下取得了有竞争力的性能。

Aug, 2023

长短文本联合预测网络：应用于指代视频目标分割

本文提出了一种基于短文本表达的参考视频对象分割方法，结合长短文本表达进行联合预测，并引入了一种前向 - 后向视觉一致性损失，实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。

Jun, 2023