视频目标分割的快速像素匹配
该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。
Apr, 2018
本文提出了一种基于自监督学习的时空匹配方法,称为 Motion-Aware Mask Propagation(MAMP),用于视频对象分割,利用帧重建任务进行训练,而无需进行标注,在 DAVIS-2017 和 YouTube-VOS 数据集上得到了最先进的性能。
Jul, 2021
视频语义分割(VSS)通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架,通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图,并将这些掩码 - 流对变换为非关键帧的掩码预测,从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明,我们的框架在准确性和效率方面取得了 SOTA 水平的折衷,最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA(使用 MiT-B5)的 mIoU 提高了 4.0%,只需要 26% 的 FLOPs。此外,与单帧 Mask2Former 基线相比,我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs,仅引起 2% 的 mIoU 降低。
Oct, 2023
本研究提出了一种快速准确的视频目标分割算法,使用一个基于部件跟踪的方法来处理具有大变形、遮挡或杂乱背景的视频,生成部分掩模,最后采用基于相似性得分的函数来完善目标部分。实验结果表明,此算法可在 DAVIS 基准数据集上获得比其他算法更高的分割精度,并实现更快的运行时性能。
Jun, 2018
本文提出了一种基于深度学习的实例级对象分割框架,其中包括使用 ResNet-101 进行前景 / 背景分割的通用模型训练,基于该通用模型接受带标注对象的训练数据,通过迭代学习实例级模型的方法以及使用空间传播网络和滤波器对分割结果进行进一步优化,以实现不同视频中的实例级对象分割。
Sep, 2017
本研究提出了一种使用深度循环网络实现同时分割和追踪视频中物体的方法,结合了时间传播和重新识别模块,以及基于注意力的循环蒙版传播方法,取得了在 DAVIS 2017 基准测试(test-dev 集合)上最高的分割和边缘测量平均值(68.2),优于同一分区上获胜解决方案的全球平均值(66.1)
Mar, 2018
MaskProp 方法采用 Mask R-CNN 对视频中的物体实例进行同时分类、分割和跟踪,通过添加掩码传播分支来适应视频序列,并最终将产生的密集剪辑级实例跟踪汇总,以产生视频级物体实例分割和分类结果。
Dec, 2019
本文提出了一种新的分段建议框架 FastMask,该方法利用深度卷积神经网络中的分层特征一次性分割多尺度对象,并在 MS COCO 基准测试中取得了优于现有方法 2-5 倍的平均检出率,同时可以在接近实时的速度下对 800 * 600 分辨率图像中的物体进行分割,该方法具有实际应用的潜力。
Dec, 2016
该研究介绍了一种名为 SiamMask 的方法,可实现单个简单方法的实时视觉对象跟踪和半监督视频对象分割。 在实时操作过程中,SiamMask 仅依赖于单个边界框初始化,以每秒 55 帧的速度产生类不可知对象分割掩模和旋转边界框。 该方法在 VOT-2018 实时跟踪器中实现了新的最新技术,同时在 DAVIS-2016 和 DAVIS-2017 的半监督视频对象分割任务中提供了最佳速度和最佳性能。
Dec, 2018
该论文提出了一种通过利用邻帧预测的空间信息并结合时间域中的帧间注意力机制来提高视频实体分割质量的方法,其在 YouTube-VIS 数据集上取得 36.0% 的 mAP,且该方法是完全在线的,不需要使用未来的视频帧。
Nov, 2021