第二届LSVOS挑战赛RVOS赛道的解决方案:空间-时间细化以实现一致的语义分割
该研究提出了一种基于循环神经网络的视频多目标分割模型,实现了零样本学习和时间上的目标连贯性,此模型在DAVIS-2017和YouTube-VOS基准测试上取得了优异的表现,并且其推理时间比现有方法更快。
Mar, 2019
通过语义辅助对象聚类(SOC)的多模态对比监督和强调时间上的连贯性,提出了一种在视频级别视觉语言对齐的增强下,对引用视频对象分割(RVOS)的研究,有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验,并在所有基准测试中,我们的方法都以显著的优势优于现有的最先进竞争对手。
May, 2023
通过引用视频目标分割(RVOS)的方法,本研究提出了一种名为OnlineRefer的简单而有效的在线模型,它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性,并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估,即Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences和JHMDB-Sentences,结果表明我们的OnlineRefer在Refer-Youtube-VOS和Refer-DAVIS17上取得了63.5 J&F和64.8 J&F的成绩,优于所有其他离线方法。
Jul, 2023
基于一种新的注释方案,我们提出了一种弱监督的方法,通过语言引导的动态过滤器和双层对比学习方法,实现了在不要求密集标注的情况下取得了有竞争力的性能。
Aug, 2023
通过将RVOS模型与Two-Stage Multi-Model Fusion策略结合,提出了一种有效的模式,该模式在Ref-Youtube-VOS验证集上实现了75.7%的J&F, 在测试集上实现了70%的J&F,在第5届大规模视频对象分割挑战(ICCV 2023)的第3组中排名第一。
Jan, 2024
基于RVOS方法,我们利用从视频实例分割模型获取的掩膜信息作为临时信息进行时间增强,并采用SAM进行空间细化,最终在验证阶段取得了49.92 J &F的得分,在测试阶段取得了54.20 J &F的得分,在2024 CVPR PVUW挑战赛的MeViS轨道中获得了第2名的最终排名。
Jun, 2024
本研究解决了参考视频物体分割(RVOS)中,由于MeViS数据集引入的动态描述所带来的挑战。论文提出了一种集成先进RVOS与VOS模型的有效pipeline,通过对状态-of-the-art RVOS模型的微调和半监督学习的应用,显著提高了掩膜结果的质量及时间一致性。本解决方案在MeViS测试集上取得了62.57 J
Aug, 2024
本研究针对视频物体分割(VOS)任务中存在的挑战,提出了Segment Anything Model 2(SAM 2),该模型通过用户交互构建数据引擎,从而收集了迄今为止最大的分割数据集。研究结果表明,SAM 2在无需微调的情况下,在更具挑战性的VOS数据集MOSE和LVOS上表现出色,取得了75.79的J
Aug, 2024
本研究解决了参照视频物体分割任务中的对象分割问题,通过构建两种基于实例的模型,融合帧级和实例级的预测结果。创新性地引入实例掩码到基于DETR的模型中,并建立实例检索模型,提高了时间和空间精度,使得我们的模型在第六届LSVOS挑战中获得了RVOS赛道的第三名。
Aug, 2024
本研究解决了现有视频分割模型在复杂场景中表现不足的问题。我们引入了第六届大规模视频目标分割挑战,采用更具挑战性的MOSE、LVOS和MeViS数据集,评估视频对象分割(VOS)和指称视频对象分割(RVOS)。本次挑战吸引了来自20多个机构的129个团队参与,推动了视频目标分割技术的发展。
Sep, 2024