PVUW2023 VSS 赛道第三名方案:基于大型模型的 VSPW 语义分割
我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案,通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系,同时采用测试时增强、模型聚合和多模态模型后处理方法,该方法在 VSPW 数据集上获得了 67.27%的 mIoU 性能,在 PVUW2024 挑战 VSS 跟踪中排名第 2。
Jun, 2024
为应对在野外进行视频全景分割任务,我们提出了一种强大的综合视频全景分割解决方案,通过将视频全景分割任务视为分割目标查询任务,利用神经网络提取的视频特征来预测分割掩码,同时添加了视频语义分割和视频实例分割等额外任务进行联合训练,提高了解决方案的学习准确性和收敛速度,最终在 VIPSeg 数据集上获得了第三名的好成绩。
Jun, 2023
我们提出了一个强大的整合视频全景分割解决方案,该方案基于 DVIS ++ 框架生成初始掩模,然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终,我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分,分别在开发和测试阶段排名第二。
Jun, 2024
该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作,以及在 PVUW'24 VSS 挑战中获得第三名的研究工作,该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。
Jun, 2024
本文针对视频语义分割问题,探究利用对比损失增强时空相关性,以及多数据集训练对模型的影响,并将两种模型的输出进行聚合,最终在 VSPW 数据集上达到了 65.95% mIoU 的性能,在 CVPR 2023 的 VSPW 挑战上取得了第一名。
Jun, 2023
通过引入综合方法,基于 DVIS++ 模型和查询式集合的补充技术,我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数,并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。
Jun, 2024
我们在 MOSE 轨道的 PVUW 2024 比赛中排名第二,并采用实例分割、运动模糊、测试时间增强和记忆策略等方法来提高视频对象分割的准确性。
Jun, 2024
通过采用基于不可靠伪标签的半监督视频语义分割方法,并使用教师网络模型和学生网络模型进行集成,本文在视频场景解析中取得了较高的 mIoU 分数,并在 CVPR 2024 的 Video Scene Parsing in the Wild Challenge 中获得了第一名。
Jun, 2024
本文介绍了一种基于解耦策略的视频全景分割方法,该方法在开发和测试阶段分别达到了 51.4 和 53.7 的 VPQ 得分,并在第二届 PVUW 挑战赛的 VPS 赛道上排名第一。
Jun, 2023
在视频目标分割领域,尤其是对象被遮挡和分割成部分的复杂场景中,追踪和分割多个对象一直是一项挑战。本研究提出了一种基于语义嵌入的视频目标分割模型,使用对象的显著特征作为查询表征,通过语义理解帮助模型识别对象的部分,并捕捉对象更具辨识性的特征。在大规模视频目标分割数据集上进行训练,我们的模型在 2024 年 PVUW Challenge 复杂视频目标分割赛道的测试集中取得第一名(84.45%)。
Jun, 2024