从弱监督的注释中学习视频物体指代分割

Aug, 2023

从弱监督的注释中学习视频物体指代分割

Learning Referring Video Object Segmentation from Weak Annotation

Wangbo Zhao, Kepan Nan, Songyang Zhang, Kai Chen, Dahua Lin...

TL;DR基于一种新的注释方案，我们提出了一种弱监督的方法，通过语言引导的动态过滤器和双层对比学习方法，实现了在不要求密集标注的情况下取得了有竞争力的性能。

Abstract

referring video object segmentation (RVOS) is a task that aims to segment the target object in all video frames based on a sentence describing the object. Previous RVOS methods have achieved significant performance

referring video object segmentation annotation scheme cross frame segmentation bi-level contrastive learning performance

发现论文，激发创造

从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案，其中构建了一组详尽的对象 tracklets，并提出了一种 Transformer-based tracklet-language grounding 模块，模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。

Jun, 2021

第一名解决方案：第五届 LSVOS 挑战赛 - 视频对象引用分割

通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合，提出了一种有效的模式，该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F，在测试集上实现了 70% 的 J&F，在第 5 届大规模视频对象分割挑战（ICCV 2023）的第 3 组中排名第一。

Jan, 2024

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

在线 Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences，结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩，优于所有其他离线方法。

Jul, 2023

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

基于语义的物体聚类在视频物体分割任务中的应用

通过语义辅助对象聚类（SOC）的多模态对比监督和强调时间上的连贯性，提出了一种在视频级别视觉语言对齐的增强下，对引用视频对象分割（RVOS）的研究，有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验，并在所有基准测试中，我们的方法都以显著的优势优于现有的最先进竞争对手。

May, 2023

RVOS：端到端的循环神经网络用于视频对象分割

该研究提出了一种基于循环神经网络的视频多目标分割模型，实现了零样本学习和时间上的目标连贯性，此模型在 DAVIS-2017 和 YouTube-VOS 基准测试上取得了优异的表现，并且其推理时间比现有方法更快。

Mar, 2019

长短文本联合预测网络：应用于指代视频目标分割

本文提出了一种基于短文本表达的参考视频对象分割方法，结合长短文本表达进行联合预测，并引入了一种前向 - 后向视觉一致性损失，实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。

Jun, 2023

视频对象分割的学习策略

该研究提出了一种新的、自动化的视频物体分割方法，通过集成一种可区分的少量样本学习模块，提高了分割精度，实现了当前 YouTube-VOS 2018 数据集的最新最佳分数，并使相对改进率达到了 2.6％以上。

Mar, 2020