GroPrompt：用于参考视频对象分割的高效基于上下文提示和适应性

CVPRJun, 2024

GroPrompt：用于参考视频对象分割的高效基于上下文提示和适应性

GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation

Ci-Siang Lin, I-Jieh Liu, Min-Hung Chen, Chien-Yi Wang, Sifei Liu...

TL;DR该研究提出了一种基于 Grounded Prompting (GroPrompt) 框架的高效适应基础分割模型来解决仅通过弱监督信息进行 Referring Video Object Segmentation (RVOS) 的问题，并提出了 Text-Aware Prompt Contrastive Learning (TAP-CL) 方法来增强位置提示和指代句子之间的关联。实验证明，该 GroPrompt 框架在标准 RVOS 基准测试中表现出竞争力，仅需边界框的弱监督信息即可。

Abstract

referring video object segmentation (RVOS) aims to segment the object referred to by the query sentence throughout the entire video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we a

referring video object segmentation grounded prompting framework text-aware prompt contrastive learning groprompt framework weak supervision

发现论文，激发创造

从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案，其中构建了一组详尽的对象 tracklets，并提出了一种 Transformer-based tracklet-language grounding 模块，模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。

Jun, 2021

在线 Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences，结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩，优于所有其他离线方法。

Jul, 2023

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

基于语义的物体聚类在视频物体分割任务中的应用

通过语义辅助对象聚类（SOC）的多模态对比监督和强调时间上的连贯性，提出了一种在视频级别视觉语言对齐的增强下，对引用视频对象分割（RVOS）的研究，有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验，并在所有基准测试中，我们的方法都以显著的优势优于现有的最先进竞争对手。

May, 2023

从弱监督的注释中学习视频物体指代分割

基于一种新的注释方案，我们提出了一种弱监督的方法，通过语言引导的动态过滤器和双层对比学习方法，实现了在不要求密集标注的情况下取得了有竞争力的性能。

Aug, 2023

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

长短文本联合预测网络：应用于指代视频目标分割

本文提出了一种基于短文本表达的参考视频对象分割方法，结合长短文本表达进行联合预测，并引入了一种前向 - 后向视觉一致性损失，实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。

Jun, 2023

细粒度视觉提示

本文介绍了一种新的零样本学习框架，Fine-Grained Visual Prompting（FGVP），通过使用精确的掩码注释来改进视觉提示设计，并展示了在不同的基准测试上均优于传统方法的性能表现。

Jun, 2023

全程 Transformer 装备的端到端指代视频物体分割

提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架，通过学习 mask 序列解决视频中物体的分割问题，并通过 Stacked Transformer 来捕捉物体级别的空间上下文。

Sep, 2023