交互与传播网络实现快速用户引导的视频目标分割

CVPRApr, 2019

交互与传播网络实现快速用户引导的视频目标分割

Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks

Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim

TL;DR本文提出了一种基于深度学习的交互式视频对象分割方法，通过卷积神经网络进行交互和传播两个核心操作，并通过新的多轮训练方案，使网络能够学习如何理解用户的意图和更新不正确的估计，实现高质量和快速的分割，并在 DAVIS 挑战赛上跑得更快、更准确，实现了真实用户交互。

Abstract

We present a deep learning method for the interactive video object segmentation. Our method is built upon two core operations, interaction and propagation, and each operation is conducted by →

deep learning video object segmentation convolutional neural networks multi-round training interactive

发现论文，激发创造

视频传播网络

该研究提出了使用视频传播网络进行语义分割的方法，该方法使用时不需要访问未来帧，并且与基于任务的最佳方法相比具有更高的性能。

Dec, 2016

基于传播方法的视频目标分割的实证研究

本文通过对传输提取方法的实证研究，设计了端到端的记忆网络，对核心方法、输入线索、多物体组合和训练策略等方面进行了详细的剖析研究，在 DAVIS 2017 数据集上取得了 76.1 的显著性能提升。

Jul, 2019

野外交互式视频对象分割

本文介绍一种基于人工交互的视频对象分割方法，使用深度学习技术进行交互式图像分割，并应用于视频对象分割中。在 GrabCut 数据集上，我们的方法以仅需 3.8 次点击的平均值获得 90％的 IOU，与当前最先进的方法相比，具有更高的准确性。此外，我们研究了用户的使用模式和提供的纠正类型等，为进一步改进交互式视频分割提供重要的见解。

Dec, 2017

使用空间传播网络在视频中学习实例分割

本文提出了一种基于深度学习的实例级对象分割框架，其中包括使用 ResNet-101 进行前景 / 背景分割的通用模型训练，基于该通用模型接受带标注对象的训练数据，通过迭代学习实例级模型的方法以及使用空间传播网络和滤波器对分割结果进行进一步优化，以实现不同视频中的实例级对象分割。

Sep, 2017

通过联合重新识别和关注力感知掩模传播实现视频对象分割

本研究提出了一种使用深度循环网络实现同时分割和追踪视频中物体的方法，结合了时间传播和重新识别模块，以及基于注意力的循环蒙版传播方法，取得了在 DAVIS 2017 基准测试（test-dev 集合）上最高的分割和边缘测量平均值（68.2），优于同一分区上获胜解决方案的全球平均值（66.1）

Mar, 2018

用于高效交互式视频物体分割的记忆聚合网络

本研究提出了一种称为记忆聚合网络的统一框架，以更高效的方式解决交互式视频对象分割的问题，通过将交互和传播操作整合到单个网络中，并提出一种简单而有效的记忆聚合机制，大大提高了发现有挑战性的感兴趣对象的鲁棒性。在 DAVIS Challenge 2018 基准验证集上进行了广泛的实验，特别地，我们的 MA-Net 在没有任何更多附加的部分下达到了 76.1% 的 J@60 分数，超过了最先进的技术 2.7% 以上。

Mar, 2020

使用像素度量学习的快速视频目标分割

该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法，并使用全卷积网络作为嵌入模型，使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入，如在第一帧中的分割遮罩（半监督情况下），或者一个稀疏的点击点集合（交互情况下），并在计算成本上获得了很好的结果。在半监督场景中，该方法达到了与现有技术相比竞争性的结果，但计算成本仅为每帧 275 毫秒。在交互式场景中，该方法能够实时响应用户的每个输入，并达到了与竞争方法相当的质量，但交互程度要少得多。

Apr, 2018

模块化交互式视频物体分割：交互到掩膜，传播和差异感知融合

提出了一种基于交互的显著性目标分割框架 MiVOS，由交互模块和传播模块组成；其中交互模块实现用户交互和目标分割的转换，而传播模块则采用一种新颖的 top-k 过滤策略，结合时空记忆进行时序传播，并提出了一种差异感知模块以有效地将前后交互的掩模融合，最终在 DAVIS 数据集上取得了优异的表现。

Mar, 2021

无需训练的鲁棒交互式视频目标分割

我们提出了一种无需训练的提示跟踪框架，将稀疏点和框跟踪相结合，采用交叉循环时空模块从多次交互中自适应地聚合引用信息，实现了在流行的 VOS 数据集上稳定的零样本视频分割结果，保持了性能和交互时间之间的良好权衡。

Jun, 2024

通过视频传播和标签弛豫来改进语义分割

通过视频预测方法合成新的训练样本并引入边界标签松弛技术，使模型对标注噪声和传播伪影更加鲁棒，实现在 Cityscapes 数据集上 83.5%、CamVid 上 82.9% 的 mIoUs 并在 KITTI 语义分割测试集上取得 72.8% 的 mIoU，超过 ROB 挑战 2018 年的获奖模型。

Dec, 2018