逐帧视频目标分割
提出了一种用于半监督视频对象分割的新型解决方案,通过利用内存网络中的可用线索和遍历所有可用源中的相关信息来实现更好的处理外观变化和遮挡等挑战,从而实现了最先进的性能。
Apr, 2019
提出两种方法以减少在线视频对象分割方法的内存需求,同时提高建模准确性和推广性,并实验结果表明这些方法可以提高在线视频对象分割模型的性能,增强其在长视频数据集上的鲁棒性。
Sep, 2023
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024
本研究提出了一种端到端的深度神经网络,结合了 Mask-RCNN 实例分割网络和 Conv-GRU 视觉记忆模块,用于解决半监督视频对象分割任务,实验结果表明该方法在 DAVIS 数据集上取得了令人满意的结果。
Sep, 2019
该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。
Apr, 2018
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
Mar, 2024
我们提出了一种新颖的半监督视频对象分割 (SSVOS) 模型 XMem++,通过引入永久记忆模块来改进现有的基于记忆的模型,在生产环境中持续地从高度复杂的场景中提取复杂对象仍然是一项费时费力的任务。我们的方法能够以较少的帧标注数量提取高度一致的结果,并引入了一种迭代和基于注意力的帧建议机制来计算最佳的下一帧注释。此外,我们还介绍了一个新的数据集 PUMaVOS,该数据集覆盖了以前基准中未出现的新的挑战性用例。我们在具有挑战性的(部分和多类别)分割场景以及长视频上展示了 SOTA 性能,同时确保显著减少了任何现有方法的帧标注数量。
Jul, 2023
该论文提出了一种名为 LCM 的基于记忆机制的视频目标分割方法,该方法采用了位置一致性和目标一致性的学习框架来解决现有方法在视频帧序列中没有利用目标级别知识和序贯性,导致准确性下降问题,实验结果表明该方法在 DAVIS 和 Youtube-VOS 基准测试中均表现出卓越性能,并在 DAVIS 2020 挑战赛中排名第一。
Apr, 2021
通过将单个视频序列视为多个短片段的方法,提出了一种新的目标关联方法,避免了中间中断的影响,聚合多帧信息实现更准确的长程跟踪关联,并在 TAO 和 MOT17 两个跟踪基准测试中进行了评估。
Dec, 2022