使用像素度量学习的快速视频目标分割

CVPRApr, 2018

使用像素度量学习的快速视频目标分割

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Yuhua Chen, Jordi Pont-Tuset, Alberto Montes, Luc Van Gool

TL;DR该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法，并使用全卷积网络作为嵌入模型，使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入，如在第一帧中的分割遮罩（半监督情况下），或者一个稀疏的点击点集合（交互情况下），并在计算成本上获得了很好的结果。在半监督场景中，该方法达到了与现有技术相比竞争性的结果，但计算成本仅为每帧 275 毫秒。在交互式场景中，该方法能够实时响应用户的每个输入，并达到了与竞争方法相当的质量，但交互程度要少得多。

Abstract

This paper tackles the problem of video object segmentation, given some user annotation which indicates the object of interest. The problem is formulated as pixel-wise retrieval in a learned embedding space: we embed pixels of the same object instance into the vicinity of each other, u

video object segmentation user annotation fully convolutional network triplet loss interactive scenario

发现论文，激发创造

通过深度度量学习实现语义实例分割

我们提出了一种新的语义实例分割方法，该方法首先计算两个像素可能属于同一个对象的概率，然后将相似的像素分组。我们的相似度度量基于一种深度的，完全卷积的嵌入模型。我们的分组方法基于选择所有与从深度完全卷积计分模型中选择的一组 “种子点” 足够相似的点。我们在 Pascal VOC 实例分割基准测试中展示了竞争性的结果。

Mar, 2017

基于像素到分割对比学习的通用弱监督分割

本研究基于半监督度量学习方法，提出了四种对应关系来捕捉低 - level 图像相似性、语义标注、共现和特征亲和力。这些节点可以从任何部分注释的训练图像中以数据驱动的方式进行学习，因此，该模型不仅适用于弱监督分割中标记的像素，还适用于未标记的像素。

May, 2021

野外交互式视频对象分割

本文介绍一种基于人工交互的视频对象分割方法，使用深度学习技术进行交互式图像分割，并应用于视频对象分割中。在 GrabCut 数据集上，我们的方法以仅需 3.8 次点击的平均值获得 90％的 IOU，与当前最先进的方法相比，具有更高的准确性。此外，我们研究了用户的使用模式和提供的纠正类型等，为进一步改进交互式视频分割提供重要的见解。

Dec, 2017

利用像素嵌入实现稀疏物体级监督的实例分割

本文提出了一种基于非空间嵌入的无提案分割方法，可处理生物医学图像等难以密集标注的图像，并引入了一种自我监督一致性损失，以解决正 - 无标签训练中的挑战。在不同显微镜模式下的二维和三维分割问题以及城市景观和 CVPPP 实例分割基准上，实现了最先进的结果。

Mar, 2021

像素级聚类网络用于无监督图像分割

本文提出了一个像素级聚类框架，用于将图像分割成区域，而无需使用地面真值标注。该框架包括特征嵌入模块、特征统计计算模块、图像重建和超像素分割，以实现准确的无监督分割。此外，我们提出了一种训练策略，利用每个超像素内部一致性、相邻超像素间的相似性 / 差异性和图像结构相似性。我们还提出了一种后处理方法，以避免由基于超像素的损失引起的过分分割。最后，我们扩展了所提方法用于无监督语义分割。通过在三个公开数据集上进行实验，我们证明了所提框架的有效性。实验结果表明，所提框架优于先前的最先进方法。

Oct, 2023

基于元学习的深度视觉词语快速视频对象分割

通过使用聚类，元学习和嵌入式空间中的视觉单词等技术，我们开发了一种快速，因果算法，可在单个前向传递中分割可变数量的对象，并在四个视频分割数据集上实现了最新的速度 / 精度折衷，在不需要调优，附加输入或后处理的情况下。

Dec, 2018

使用卷积神经网络进行视频对象分割的像素级别匹配

本文提出了基于 CNN 的视频对象分割算法，采用像素级匹配来区分目标区域和背景。提出了特征压缩技术，对大数据集进行实验，证明了模型在准确性、速度和稳定性方面的有效性，同时也介绍了模型在不同领域的可传递性。

Aug, 2017

弱监督视频显著目标检测

本文提出了基于新型弱标注的视频显著目标检测模型，并使用外观运动融合模块和双向 ConvLSTM 框架来实现有效的多模态学习和长期时序建模，还设计了一种前景背景相似度损失和一种弱标注增强策略，以提高模型性能和伪标签生成技术。在六个基准视频显著性检测数据集上的实验结果证明了我们方案的有效性。

Apr, 2021

使用视觉和语义嵌入的共同关注实现弱监督的少样本目标分割

本文提出了一种基于多模态交互模块的小样本物体分割方法，该方法利用视觉和词嵌入的协同注意机制，使用图像级标签在 PASCAL-5i 数据集上实现了 4.8％的提高，并在 YouTube-VOS 数据集上展示了 TOSFL 实验的实例级和类别级结果。

Jan, 2020

像素目标性

本文提出了一种端到端的学习框架，其中使用深度卷积网络实现了将前景 / 背景标签分配给所有像素的结构化预测，在无需看到训练期间未曾见过的物体类别的情况下生成了像素级的前景对象分割，并在 ImageNet 和 MIT ObjectDiscovery 数据集上显著改善了前景分割的最新技术成果。我们最后展示了该方法如何使图像检索和图像重排具备更好的应用前景图。

Jan, 2017