基于遮罩视频一致性的 VSPW 数据集语义分割
本文针对视频语义分割问题,探究利用对比损失增强时空相关性,以及多数据集训练对模型的影响,并将两种模型的输出进行聚合,最终在 VSPW 数据集上达到了 65.95% mIoU 的性能,在 CVPR 2023 的 VSPW 挑战上取得了第一名。
Jun, 2023
本论文介绍了基于 InternImage-H 和 Mask2former 的视觉背骨和分割头以及 CascadePSP 和 Segment Anything Model 这两种后处理方法在视频语义分割中的应用,最终在 PVUW2023 VSS 赛道排名第三。
Jun, 2023
该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作,以及在 PVUW'24 VSS 挑战中获得第三名的研究工作,该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。
Jun, 2024
视频语义分割(VSS)通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架,通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图,并将这些掩码 - 流对变换为非关键帧的掩码预测,从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明,我们的框架在准确性和效率方面取得了 SOTA 水平的折衷,最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA(使用 MiT-B5)的 mIoU 提高了 4.0%,只需要 26% 的 FLOPs。此外,与单帧 Mask2Former 基线相比,我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs,仅引起 2% 的 mIoU 降低。
Oct, 2023
通过采用基于不可靠伪标签的半监督视频语义分割方法,并使用教师网络模型和学生网络模型进行集成,本文在视频场景解析中取得了较高的 mIoU 分数,并在 CVPR 2024 的 Video Scene Parsing in the Wild Challenge 中获得了第一名。
Jun, 2024
我们提出了一个用于视频语义分割(VSS)的新解决方案 THE-Mask,首次引入了时态感知的分层物体查询,并利用简单的两轮匹配机制,在训练过程中以最小代价匹配更多的查询对象,同时在推理过程中无需任何额外代价。为了支持多对一的分配,我们设计了一种分层损失来训练带有相应主次层级关系的查询。此外,为了有效捕捉帧间的时态信息,我们提出了一个时态聚合解码器,以无缝融入 VSS 的掩码分类模型,利用时态敏感的多级查询方法,在最新的具有挑战性的 VSS 基准 VSPW 上取得了最先进的性能。
Sep, 2023
为应对在野外进行视频全景分割任务,我们提出了一种强大的综合视频全景分割解决方案,通过将视频全景分割任务视为分割目标查询任务,利用神经网络提取的视频特征来预测分割掩码,同时添加了视频语义分割和视频实例分割等额外任务进行联合训练,提高了解决方案的学习准确性和收敛速度,最终在 VIPSeg 数据集上获得了第三名的好成绩。
Jun, 2023
我们提出了一个强大的整合视频全景分割解决方案,该方案基于 DVIS ++ 框架生成初始掩模,然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终,我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分,分别在开发和测试阶段排名第二。
Jun, 2024
通过引入综合方法,基于 DVIS++ 模型和查询式集合的补充技术,我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数,并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。
Jun, 2024
复杂环境下像素级视频理解的挑战,提供了基于 MOSE 数据集的复杂视频对象分割以及基于 MeViS 数据集的运动表达引导的视频分割两个新的跟踪,并通过提供具有挑战性元素的额外视频和注释来促进像素级视频场景的综合和强大的理解。
Jun, 2024