视频目标分割的时空多层关联
该研究提出了一种新颖的无监督视频多目标分割方法,通过结合前景区域估计和实例分组来提高实例判别,引入判别性外观模型用于目标跟踪,实现更准确的物体发现,以及采用自适应内存更新等三种策略提高分割准确性和推理速度,并在 DAVIS17 和 YouTube-VIS 数据集上超越了现有技术的表现。
Apr, 2021
提出了一种用于半监督视频对象分割的新型解决方案,通过利用内存网络中的可用线索和遍历所有可用源中的相关信息来实现更好的处理外观变化和遮挡等挑战,从而实现了最先进的性能。
Apr, 2019
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024
本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战,包括短期记忆子网络和长期记忆子网络,通过图形学习框架提高局部区域间的可视一致性,在三个常用的数据集上取得了非常好的性能。
Mar, 2020
本文提出了一种统一的、端到端可训练的时空卷积神经网络模型,用于视觉目标分割,包括时间一致分支和空间分割分支,并以优化的方式使用未标记的视频数据从中预训练时空一致性分支,以捕获视频序列的动态外观和运动线索引导对象分割。
Apr, 2019
提出了一种名为 JointFormer 的统一 VOS 框架,能够同时提取特征并传播目标信息,以进行全面的信息传播和辨别特征学习,通过在线更新机制,实现了对长期目标信息的整合,在多个基准测试上取得了较大幅度的优于现有算法的最新性能。
Aug, 2023
提出了一种新的端到端的 R-VOS 范例,通过显式建模时序实例一致性与指定分割相结合,引入了一种新颖的混合内存,用于在鲁棒的时空匹配和传播中促进帧间协作;通过多粒度的关联将具有高质量参考掩码的帧的特征传播到其余帧,以实现时间一致的 R-VOS;此外,提出了一种新的掩码一致性评分 (MCS) 指标,用于评估视频分割的时间一致性;大量实验证明我们的方法显著提高了时间一致性,在流行的 R-VOS 基准测试中取得了最高的性能,即 Ref-YouTube-VOS (67.1%) 和 Ref-DAVIS17 (65.6%)。
Mar, 2024
该论文提出了一种名为 LCM 的基于记忆机制的视频目标分割方法,该方法采用了位置一致性和目标一致性的学习框架来解决现有方法在视频帧序列中没有利用目标级别知识和序贯性,导致准确性下降问题,实验结果表明该方法在 DAVIS 和 Youtube-VOS 基准测试中均表现出卓越性能,并在 DAVIS 2020 挑战赛中排名第一。
Apr, 2021
该论文介绍了一种简单而有效的方法来建模视频对象分割中的时空对应关系,使用对应关系实现内存高效且鲁棒的框架,并且使用负平方欧氏距离计算亲和力,实现了多对象的高速分割,并获得了最新的最高性能结果。
Jun, 2021
本文提出了一种空间 - 时间自我监督学习方法,通过对无标注图像的对比学习来提取空间特征,并通过重构学习利用无标注视频中的时间线索增强特征,以在视频分析任务上取得比现有自我监督方法更好的表现,并进行了削减研究以验证两步设计以及蒸馏损失的有效性。
Sep, 2022