第二届LSVOS挑战赛RVOS赛道的解决方案：空间-时间细化以实现一致的语义分割

Aug, 2024

第二届LSVOS挑战赛RVOS赛道的解决方案：空间-时间细化以实现一致的语义分割

The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation

Tuyen Tran

TL;DR该研究解决了引用视频目标分割（RVOS）中的时间一致性问题，现有模型在长时间序列上存在感知不一致的缺陷。通过利用新引入的Segment Anything Model版本2（SAM-v2）的跟踪能力，本研究提出了一种新的方法，显著提高了引用对象分割模型的时间一致性，最终在ECCV 2024 LSVOS挑战赛RVOS赛道中获得第二名。

Abstract

Referring Video Object Segmentation (RVOS) is a challenging task due to its requirement for temporal understanding. Due to the obstacle of computational complexity, many state-of-the-art models are trained on short time intervals. During testing, while these models can effectively proc

发现论文，激发创造

RVOS：端到端的循环神经网络用于视频对象分割

该研究提出了一种基于循环神经网络的视频多目标分割模型，实现了零样本学习和时间上的目标连贯性，此模型在DAVIS-2017和YouTube-VOS基准测试上取得了优异的表现，并且其推理时间比现有方法更快。

Mar, 2019

基于语义的物体聚类在视频物体分割任务中的应用

通过语义辅助对象聚类（SOC）的多模态对比监督和强调时间上的连贯性，提出了一种在视频级别视觉语言对齐的增强下，对引用视频对象分割（RVOS）的研究，有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验，并在所有基准测试中，我们的方法都以显著的优势优于现有的最先进竞争对手。

May, 2023

在线Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为OnlineRefer的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences和JHMDB-Sentences，结果表明我们的OnlineRefer在Refer-Youtube-VOS和Refer-DAVIS17上取得了63.5 J&F和64.8 J&F的成绩，优于所有其他离线方法。

Jul, 2023

从弱监督的注释中学习视频物体指代分割

基于一种新的注释方案，我们提出了一种弱监督的方法，通过语言引导的动态过滤器和双层对比学习方法，实现了在不要求密集标注的情况下取得了有竞争力的性能。

Aug, 2023

第一名解决方案：第五届LSVOS挑战赛 - 视频对象引用分割

通过将RVOS模型与Two-Stage Multi-Model Fusion策略结合，提出了一种有效的模式，该模式在Ref-Youtube-VOS验证集上实现了75.7%的J&F，在测试集上实现了70%的J&F，在第5届大规模视频对象分割挑战（ICCV 2023）的第3组中排名第一。

Jan, 2024

2024年CVPR PVUW Workshop MeViS赛道第二名方案：基于运动表情引导的视频分割

基于RVOS方法，我们利用从视频实例分割模型获取的掩膜信息作为临时信息进行时间增强，并采用SAM进行空间细化，最终在验证阶段取得了49.92 J &F的得分，在测试阶段取得了54.20 J &F的得分，在2024 CVPR PVUW挑战赛的MeViS轨道中获得了第2名的最终排名。

Jun, 2024

UNINEXT-Cutie: LSVOS挑战RVOS轨道的首个解决方案

本研究解决了参考视频物体分割（RVOS）中，由于MeViS数据集引入的动态描述所带来的挑战。论文提出了一种集成先进RVOS与VOS模型的有效pipeline，通过对状态-of-the-art RVOS模型的微调和半监督学习的应用，显著提高了掩膜结果的质量及时间一致性。本解决方案在MeViS测试集上取得了62.57 J

Aug, 2024

通过SAM 2进行视频物体分割：LSVOS挑战VOS赛道的第四个解决方案

本研究针对视频物体分割（VOS）任务中存在的挑战，提出了Segment Anything Model 2（SAM 2），该模型通过用户交互构建数据引擎，从而收集了迄今为止最大的分割数据集。研究结果表明，SAM 2在无需微调的情况下，在更具挑战性的VOS数据集MOSE和LVOS上表现出色，取得了75.79的J

Aug, 2024

针对LSVOS挑战中的RVOS赛道的基于实例的变换器：第三名解决方案

本研究解决了参照视频物体分割任务中的对象分割问题，通过构建两种基于实例的模型，融合帧级和实例级的预测结果。创新性地引入实例掩码到基于DETR的模型中，并建立实例检索模型，提高了时间和空间精度，使得我们的模型在第六届LSVOS挑战中获得了RVOS赛道的第三名。

Aug, 2024

LSVOS挑战报告：大规模复杂和长视频目标分割

本研究解决了现有视频分割模型在复杂场景中表现不足的问题。我们引入了第六届大规模视频目标分割挑战，采用更具挑战性的MOSE、LVOS和MeViS数据集，评估视频对象分割（VOS）和指称视频对象分割（RVOS）。本次挑战吸引了来自20多个机构的129个团队参与，推动了视频目标分割技术的发展。

Sep, 2024