多粒度时间原型学习用于少样本视频目标分割

ICCVSep, 2023

多粒度时间原型学习用于少样本视频目标分割

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation

Nian Liu, Kepan Nan, Wangbo Zhao, Yuanwei Liu, Xiwen Yao...

TL;DR通过引入多粒度的时间引导信息和自适应查询引导线索，利用剪辑和内存原型来分别捕捉本地和长期内部时间引导，从而在处理视频数据的时间相关性时，通过每个帧独立地使用帧原型来处理细粒度的自适应引导并实现双向的剪辑 - 帧原型通信，以减少噪声内存的影响，并提出了一种新的分割损失来增强原型的类别可辨识性。实验结果表明，我们提出的视频 IPMT 模型在两个基准数据集上明显优于先前的模型。

Abstract

few-shot video object segmentation (fsvos) aims to segment objects in a query video with the same category defined by a few annotated support images. However, this task was seldom explored. In this work, based on

few-shot video object segmentation fsvos temporal guidance information prototype segmentation loss

发现论文，激发创造

双时序记忆网络用于高效的视频目标分割

本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战，包括短期记忆子网络和长期记忆子网络，通过图形学习框架提高局部区域间的可视一致性，在三个常用的数据集上取得了非常好的性能。

Mar, 2020

视频对象分割的学习策略

该研究提出了一种新的、自动化的视频物体分割方法，通过集成一种可区分的少量样本学习模块，提高了分割精度，实现了当前 YouTube-VOS 2018 数据集的最新最佳分数，并使相对改进率达到了 2.6％以上。

Mar, 2020

综合原型注意力网络用于少样本视频目标分割

本文提出了一种新的全局原型注意力网络方法，通过将局部注意力与全局原型图协同地作用于少样本视频目标分割任务中，使得模型能够更加准确地学习到支持图像与视频帧之间的关联性，并且获得更好的性能表现。

Jul, 2023

自适应 FSS: 一种通过原型增强的新型少样本分割框架

基于适配器机制提出了一种新的 Few-Shot Segmentation (FSS) 框架，设计了 Prototype Adaptive Module (PAM) 来提高 FSS 模型的性能和实现新的最先进结果。

Dec, 2023

时空强化网络用于视频目标分割

最近，视频对象分割（VOS）网络通常使用基于记忆的方法：对于每个查询帧，通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能，但存在两个问题：1）具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2）像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题，我们首先提出在相邻帧之间生成一个辅助帧，作为查询帧的隐式短时间参考。随后，我们为每个视频对象学习一个原型，并在查询帧和记忆帧之间实施原型级匹配。实验证明，在 DAVIS 2017 上我们的网络优于最先进的方法，达到了 86.4% 的 J&F 分数，并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外，我们的网络的推理速度为 32+ FPS。

May, 2024

动态查询调节的视频目标分割

通过将对象特征汇总成为动态查询，并将其作为动态滤波器用于掩膜预测，我们提出了一种名为 QMVOS 的查询调节方法，从而为模型提供高级描述和对象级感知。通过查询间的注意力实现高效有效的多对象交互，这一方法对基于内存的半监督视频对象分割方法带来了显著的改进，并在标准 SVOS 基准上实现了竞争性能。

Mar, 2024

少样本视频物体检测

本篇论文提出了 Few-Shot Video Object Detection (FSVOD) 方法，包括 FSVOD-500 数据集、Tube Proposal Network 和 Temporal Matching Network 两个网络，能显著提升视频物体识别的效果。

Apr, 2021

XMem++：从少量标注帧生成生产级别的视频分割

我们提出了一种新颖的半监督视频对象分割 (SSVOS) 模型 XMem++，通过引入永久记忆模块来改进现有的基于记忆的模型，在生产环境中持续地从高度复杂的场景中提取复杂对象仍然是一项费时费力的任务。我们的方法能够以较少的帧标注数量提取高度一致的结果，并引入了一种迭代和基于注意力的帧建议机制来计算最佳的下一帧注释。此外，我们还介绍了一个新的数据集 PUMaVOS，该数据集覆盖了以前基准中未出现的新的挑战性用例。我们在具有挑战性的（部分和多类别）分割场景以及长视频上展示了 SOTA 性能，同时确保显著减少了任何现有方法的帧标注数量。

Jul, 2023

单次视频目标分割

本文提出一种基于神经网络的半监督视频目标分割技术，能够在保证处理速度的前提下提升目标分割的效果。

Nov, 2016

FODVid: 视频中的流引导物体发现

我们在视频中对象的分割问题上提出了一种新的管道（FODVid），它基于使用流引导图割和时间一致性的思想来引导分割输出，通过设计一个融合了帧内外观和流相似性以及帧间对象时间持续性的分割模型，我们的方法在无监督的视频对象分割中取得了与现有顶级方法相当的结果（在 mIoU 范围内相差约 2 个单位），我们技术的简单性和效果为视频领域的研究开辟了新的研究途径。

Jul, 2023