视频目标分割中注释的内容与方法学习
该研究提出了一种新的、自动化的视频物体分割方法,通过集成一种可区分的少量样本学习模块,提高了分割精度,实现了当前 YouTube-VOS 2018 数据集的最新最佳分数,并使相对改进率达到了 2.6%以上。
Mar, 2020
本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架,只需要一个标记的帧来训练,并适用于大多数最先进的 VOS 网络。通过双向训练,我们得到了一个令人满意的 VOS 网络,仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧,达到了与完全标记的数据集训练的结果相当的效果。
May, 2024
本文提出了一种基于马尔可夫决策过程和深度强化学习框架的交互式视频物体分割方法,使得用户注释的最有价值的帧能够被自动推荐,从而在野外环境中实现了更实用的交互设置,实验结果也证明了本方法的有效性。
Mar, 2021
本文提出了一种新的视频对象分割训练范式 - 两张标记帧的视频对象分割,通过在训练期间生成伪标签并将其与已标记数据结合优化模型,我们仅需要稀疏注释就可以训练出令人满意的模型。通过使用 YouTube-VOS 和 DAVIS 基准测试的仅仅 7.3%和 2.9%标记数据,我们的方法取得了与全标记集训练的同行相当的结果。
Mar, 2023
本研究通过使用深度卷积神经网络,基于较为便宜的边界框注释自动生成像素级别的伪标签;进而证明添加单个手工标注的掩模图像帧可以对训练视频目标分割(VOS)方法产生足够的影响,从而可以利用这些伪标签进行训练。我们将这种方法应用在 TAO 观察数据集,得到了一个挑战性的新的 TAO-VOS 基准数据集,为当前算法的不足揭示出明显的改进空间。
Nov, 2020
提出了一种基于稀疏点注释方案的新型 Point-VOS 任务和标注机制,通过基于伪掩码的训练可以使现有的 VOS 方法在性能上接近全监督的表现,并且该数据可用于改进视觉和语言相关的模型。
Feb, 2024
该研究提出了一种新的视频对象分割方式,它由轻量级模块和分割模型两部分组成。在推理阶段使用快速优化技术学习目标外观模型,以预测出粗略但鲁棒的目标分割,然后将粗略的分数转化成高质量的分割掩模,该模式具有快速、易于训练、在有限的训练数据情况下仍然高效等优点。在挑战性的 YouTube-VOS 和 DAVIS 数据集上进行了广泛实验,其结果与现有技术相比具有更高的帧率和优异的性能。
Feb, 2020
Video Object Segmentation task is addressed by proposing Click Video Object Segmentation (ClickVOS), an end-to-end baseline approach called Attention Before Segmentation (ABS), which utilizes the given point in the first frame to perceive the target object through a concise yet effective segmentation attention, leading to improved object mask accuracy.
Mar, 2024
视频目标分割是计算机视觉中的重要任务,研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响,并在复杂视频目标分割(MOSE)数据集上验证了我们方法的有效性,实验结果表明在测试集上达到了 0.8139 的 J&F 得分,在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。
Jun, 2024
我们提出了一种新颖的半监督视频对象分割 (SSVOS) 模型 XMem++,通过引入永久记忆模块来改进现有的基于记忆的模型,在生产环境中持续地从高度复杂的场景中提取复杂对象仍然是一项费时费力的任务。我们的方法能够以较少的帧标注数量提取高度一致的结果,并引入了一种迭代和基于注意力的帧建议机制来计算最佳的下一帧注释。此外,我们还介绍了一个新的数据集 PUMaVOS,该数据集覆盖了以前基准中未出现的新的挑战性用例。我们在具有挑战性的(部分和多类别)分割场景以及长视频上展示了 SOTA 性能,同时确保显著减少了任何现有方法的帧标注数量。
Jul, 2023