MeViS：一个基于运动表达的大规模视频分割基准

ICCVAug, 2023

MeViS：一个基于运动表达的大规模视频分割基准

MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Chen Change Loy

TL;DR本研究旨在使用运动表达引导的视频分割，通过在描述对象运动的句子上对视频内容中的对象进行分割。我们提出了一个名为 MeViS 的大规模数据集，其中包含了大量的运动表达，用于指示复杂环境中的目标对象。通过对 MeViS 数据集进行 5 种现有的参考视频对象分割方法进行基准测试和全面比较，结果表明目前的方法不能有效地处理运动表达引导的视频分割。我们进一步分析了所面临的挑战，并在 MeViS 数据集上提出了一个基准方法。我们的目标是提供一个平台，以便开发对复杂视频场景中的对象分割利用运动表达作为主要线索的有效语言引导视频分割算法。MeViS 数据集已在此 URL 发布。

Abstract

This paper strives for motion expressions guided video segmentation, which focuses on segmenting objects in video content based on a sentence describing the motion of the objects. Existing →

motion expressions video segmentation referring video object datasets mevis dataset language-guided video segmentation algorithms

发现论文，激发创造

2024 年 CVPR PVUW Workshop MeViS 赛道第二名方案：基于运动表情引导的视频分割

基于 RVOS 方法，我们利用从视频实例分割模型获取的掩膜信息作为临时信息进行时间增强，并采用 SAM 进行空间细化，最终在验证阶段取得了 49.92 J &F 的得分，在测试阶段取得了 54.20 J &F 的得分，在 2024 CVPR PVUW 挑战赛的 MeViS 轨道中获得了第 2 名的最终排名。

Jun, 2024

CVPR 2024 PVUW 工作坊 MeViS 跟踪竞赛第一名解决方案：基于动作表情的视频分割

运动表达引导的视频分割是新兴领域，对引用的视频对象分割 (RVOS) 提出了许多新的挑战。本技术报告调查和验证了静态主导数据和帧采样对这一具有挑战性的任务的有效性。我们的解决方案在比赛阶段达到了 0.5447 的 J&F 得分，在 PVUW Challenge 的 MeViS 赛道中排名第一。代码可以在此 https 链接上找到。

Jun, 2024

CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案：运动表情引导的视频分割

提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法，着重于增强跨模态特征交互，在视频目标分割中取得了显著的改进效果。

Jun, 2024

复杂视频理解的 PVUW 2024 挑战：方法与结果

复杂环境下像素级视频理解的挑战，提供了基于 MOSE 数据集的复杂视频对象分割以及基于 MeViS 数据集的运动表达引导的视频分割两个新的跟踪，并通过提供具有挑战性元素的额外视频和注释来促进像素级视频场景的综合和强大的理解。

Jun, 2024

语言指代表达的视频目标分割

本文提出一种利用语言描述指定目标对象的视频目标分割方法，通过扩展图像的语言基础模型来保证时空连续的预测，实验结果表明这种基于语言监督的方法在 DAVIS'16 数据集上表现与使用像素级掩模的传统方法相同，在 DAVIS'17 数据集上表现优于使用涂鸦的方法。

Mar, 2018

开放式视频实例分割

本文提出了开放词汇视频实例分割这一新颖任务，在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明，该方法能够有效地处理实际中从未见过的新类别，并且提供了数据集和代码以促进未来的研究。

Apr, 2023

解耦参照视频分割中的静态与层级运动感知

视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化，并采用对比学习来区分视觉上相似的对象的运动，取得了在五个数据集上的最先进性能，并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。

Apr, 2024

MoVi：一个大型通用运动与视频数据集

本文介绍了一组新的人体运动和视频数据集 MoVi，其中包括 60 名女性和 30 名男性表演 20 种预定义的日常动作和运动，以及一种自选运动。该数据集包含 9 小时的运动捕捉数据、17 小时的 4 个不同视角的视频数据和 6.6 小时的 IMU 数据，同时还描述了数据集的收集和后处理过程，并探讨了该数据集可促进的研究方向。

Mar, 2020

TarViS: 基于目标的视频分割的统一方法

该论文提出了 TarViS，这是一种新颖的、统一的网络架构，可以应用于任何需要在视频中分割一组任意定义的 “目标” 的任务，它采用了近期具备多任务能力的方法，并使用抽象的 “查询” 来预测像素精度的目标掩码，其中一个 TarViS 模型可以联合训练在不同任务跨越数据集的集合上，并可以在推理过程中在不进行任何任务特定的重新训练的情况下在不同任务之间进行热交换，最终实现了在 5/7 基准测试中实现了这四个任务的最新性能，并在其余两个上具有竞争力。

Jan, 2023

eMotions：一份用于短视频情绪识别的大规模数据集

现今，短视频对于信息获取和分享至关重要。鉴于短视频情感数据的缺乏，我们介绍了一个大规模的数据集，名为 eMotions，包含 27996 个视频。我们通过优化人员分配和多阶段注释来减轻主观因素对标签质量的影响。另外，我们通过有针对性的数据采样提供了类别平衡和面向测试的变体。我们提出了一种端到端的基线方法 AV-CPNet，采用视频 Transformer 来更好地学习语义相关表示。我们进一步设计了两阶段的跨模态融合模块，来补充地建模音视频特征之间的相关性。然后，我们应用了包含三种情感极性的 EP-CE 损失来指导模型优化。对于九个数据集的广泛实验结果验证了 AV-CPNet 的有效性。数据集和代码将在此 https URL 开放。

Nov, 2023