CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案：运动表情引导的视频分割

Jun, 2024

CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案：运动表情引导的视频分割

3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation

Feiyu Pan, Hao Fang, Xiankai Lu

TL;DR提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法，着重于增强跨模态特征交互，在视频目标分割中取得了显著的改进效果。

Abstract

referring video object segmentation (RVOS) relies on natural language expressions to segment target objects in video, emphasizing modeling dense text-video relations. The current RVOS methods typically use independently pre-trained vision and language models as backbones, resulting in

referring video object segmentation cross-modal feature interaction pre-trained vision-language models cross-modal feature fusion video query initialization

发现论文，激发创造

2024 年 CVPR PVUW Workshop MeViS 赛道第二名方案：基于运动表情引导的视频分割

基于 RVOS 方法，我们利用从视频实例分割模型获取的掩膜信息作为临时信息进行时间增强，并采用 SAM 进行空间细化，最终在验证阶段取得了 49.92 J &F 的得分，在测试阶段取得了 54.20 J &F 的得分，在 2024 CVPR PVUW 挑战赛的 MeViS 轨道中获得了第 2 名的最终排名。

Jun, 2024

CVPR 2024 PVUW 工作坊 MeViS 跟踪竞赛第一名解决方案：基于动作表情的视频分割

运动表达引导的视频分割是新兴领域，对引用的视频对象分割 (RVOS) 提出了许多新的挑战。本技术报告调查和验证了静态主导数据和帧采样对这一具有挑战性的任务的有效性。我们的解决方案在比赛阶段达到了 0.5447 的 J&F 得分，在 PVUW Challenge 的 MeViS 赛道中排名第一。代码可以在此 https 链接上找到。

Jun, 2024

从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案，其中构建了一组详尽的对象 tracklets，并提出了一种 Transformer-based tracklet-language grounding 模块，模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。

Jun, 2021

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

MeViS：一个基于运动表达的大规模视频分割基准

本研究旨在使用运动表达引导的视频分割，通过在描述对象运动的句子上对视频内容中的对象进行分割。我们提出了一个名为 MeViS 的大规模数据集，其中包含了大量的运动表达，用于指示复杂环境中的目标对象。通过对 MeViS 数据集进行 5 种现有的参考视频对象分割方法进行基准测试和全面比较，结果表明目前的方法不能有效地处理运动表达引导的视频分割。我们进一步分析了所面临的挑战，并在 MeViS 数据集上提出了一个基准方法。我们的目标是提供一个平台，以便开发对复杂视频场景中的对象分割利用运动表达作为主要线索的有效语言引导视频分割算法。MeViS 数据集已在此 URL 发布。

Aug, 2023

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

基于多模态特征的文本视频分割运动建模

本文提出了一种多模态视频分割方法，通过语言引导的特征融合模块和多模态对齐损失函数，将视觉外观、运动信息和语言特征融合，实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明，该方法与现有方法相比具有更好的性能和泛化能力。

Apr, 2022

长短文本联合预测网络：应用于指代视频目标分割

本文提出了一种基于短文本表达的参考视频对象分割方法，结合长短文本表达进行联合预测，并引入了一种前向 - 后向视觉一致性损失，实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。

Jun, 2023

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

第一名解决方案：第五届 LSVOS 挑战赛 - 视频对象引用分割

通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合，提出了一种有效的模式，该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F，在测试集上实现了 70% 的 J&F，在第 5 届大规模视频对象分割挑战（ICCV 2023）的第 3 组中排名第一。

Jan, 2024