视频目标分割的快速像素匹配

MMJul, 2021

Fast Pixel-Matching for Video Object Segmentation

Siyue Yu, Jimin Xiao, BingFeng Zhang, Eng Gee Lim

TL;DR本文提出了一种名为 NPMCA-net 的模型，它结合了 mask-propagation 和非局部技术，直接定位前景物体，既能处理大的物体外观变化，也能更好地适应遮挡，实验结果表明，该方法在速度和性能方面都达到了新的最高水平。

Abstract

video object segmentation, aiming to segment the foreground objects given the annotation of the first frame, has been attracting increasing attentions. Many state-of-the-art approaches have achieved great performance by relying on →

video object segmentation online model updating mask-propagation techniques npmca-net non-local technique

发现论文，激发创造

使用像素度量学习的快速视频目标分割

该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法，并使用全卷积网络作为嵌入模型，使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入，如在第一帧中的分割遮罩（半监督情况下），或者一个稀疏的点击点集合（交互情况下），并在计算成本上获得了很好的结果。在半监督场景中，该方法达到了与现有技术相比竞争性的结果，但计算成本仅为每帧 275 毫秒。在交互式场景中，该方法能够实时响应用户的每个输入，并达到了与竞争方法相当的质量，但交互程度要少得多。

Apr, 2018

通过运动感知掩模传播进行自监督的视频对象分割

本文提出了一种基于自监督学习的时空匹配方法，称为 Motion-Aware Mask Propagation（MAMP），用于视频对象分割，利用帧重建任务进行训练，而无需进行标注，在 DAVIS-2017 和 YouTube-VOS 数据集上得到了最先进的性能。

Jul, 2021

用于高效视频语义分割的蒙版传播

视频语义分割（VSS）通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架，通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图，并将这些掩码 - 流对变换为非关键帧的掩码预测，从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明，我们的框架在准确性和效率方面取得了 SOTA 水平的折衷，最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA（使用 MiT-B5）的 mIoU 提高了 4.0%，只需要 26% 的 FLOPs。此外，与单帧 Mask2Former 基线相比，我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs，仅引起 2% 的 mIoU 降低。

Oct, 2023

快速准确的在线视频目标分割：通过追踪部位

本研究提出了一种快速准确的视频目标分割算法，使用一个基于部件跟踪的方法来处理具有大变形、遮挡或杂乱背景的视频，生成部分掩模，最后采用基于相似性得分的函数来完善目标部分。实验结果表明，此算法可在 DAVIS 基准数据集上获得比其他算法更高的分割精度，并实现更快的运行时性能。

Jun, 2018

使用空间传播网络在视频中学习实例分割

本文提出了一种基于深度学习的实例级对象分割框架，其中包括使用 ResNet-101 进行前景 / 背景分割的通用模型训练，基于该通用模型接受带标注对象的训练数据，通过迭代学习实例级模型的方法以及使用空间传播网络和滤波器对分割结果进行进一步优化，以实现不同视频中的实例级对象分割。

Sep, 2017

通过联合重新识别和关注力感知掩模传播实现视频对象分割

本研究提出了一种使用深度循环网络实现同时分割和追踪视频中物体的方法，结合了时间传播和重新识别模块，以及基于注意力的循环蒙版传播方法，取得了在 DAVIS 2017 基准测试（test-dev 集合）上最高的分割和边缘测量平均值（68.2），优于同一分区上获胜解决方案的全球平均值（66.1）

Mar, 2018

利用掩膜传播对视频中的物体实例进行分类、分割和跟踪

MaskProp 方法采用 Mask R-CNN 对视频中的物体实例进行同时分类、分割和跟踪，通过添加掩码传播分支来适应视频序列，并最终将产生的密集剪辑级实例跟踪汇总，以产生视频级物体实例分割和分类结果。

Dec, 2019

FastMask: 一键分割多尺度物体候选区

本文提出了一种新的分段建议框架 FastMask，该方法利用深度卷积神经网络中的分层特征一次性分割多尺度对象，并在 MS COCO 基准测试中取得了优于现有方法 2-5 倍的平均检出率，同时可以在接近实时的速度下对 800 * 600 分辨率图像中的物体进行分割，该方法具有实际应用的潜力。

Dec, 2016

快速在线物体跟踪和分割：一种统一的方法

该研究介绍了一种名为 SiamMask 的方法，可实现单个简单方法的实时视觉对象跟踪和半监督视频对象分割。在实时操作过程中，SiamMask 仅依赖于单个边界框初始化，以每秒 55 帧的速度产生类不可知对象分割掩模和旋转边界框。该方法在 VOT-2018 实时跟踪器中实现了新的最新技术，同时在 DAVIS-2016 和 DAVIS-2017 的半监督视频对象分割任务中提供了最佳速度和最佳性能。

Dec, 2018

通过帧间关注力实现物体传播的时间稳定视频实例分割

该论文提出了一种通过利用邻帧预测的空间信息并结合时间域中的帧间注意力机制来提高视频实体分割质量的方法，其在 YouTube-VIS 数据集上取得 36.0% 的 mAP，且该方法是完全在线的，不需要使用未来的视频帧。

Nov, 2021