大规模视频对象分割中的全局动作理解

May, 2024

大规模视频对象分割中的全局动作理解

Global Motion Understanding in Large-Scale Video Object Segmentation

Volodymyr Fedynyak, Yaroslav Romanus, Oles Dobosevych, Igor Babin, Roman Riazantsev

TL;DR通过在动态视频的对象分割中集成场景全局运动知识，我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构，利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时，我们使用大规模的 MOSE 2023 数据集训练模型，该方法在各种复杂场景中展现了强大的性能。

Abstract

In this paper, we show that transferring knowledge from other domains of video understanding combined with large-scale learning can improve robustness of video object segmentation (VOS) under complex circumstances. Namely, we focus on integrating scene global motion knowledge to improv

video object segmentation knowledge transfer semi-supervised learning optical flow estimation large-scale dataset

发现论文，激发创造

FODVid: 视频中的流引导物体发现

我们在视频中对象的分割问题上提出了一种新的管道（FODVid），它基于使用流引导图割和时间一致性的思想来引导分割输出，通过设计一个融合了帧内外观和流相似性以及帧间对象时间持续性的分割模型，我们的方法在无监督的视频对象分割中取得了与现有顶级方法相当的结果（在 mIoU 范围内相差约 2 个单位），我们技术的简单性和效果为视频领域的研究开辟了新的研究途径。

Jul, 2023

DeVOS: 流引导的可变形变压器用于视频对象分割

结合基于记忆的匹配和运动引导传播的 DeVOS（可变形视频对象分割）架构，用于视频对象分割，实现稳定的长期建模和强大的时间一致性。

May, 2024

通过对比运动聚类实现在线非监督视频物体分割

本文提出了一种基于对比学习的无监督在线视频目标分割算法，利用光流作为输入，通过聚类的方式学习物体运动信息，并采用边界先验进行对比学习以提高特征鉴别度和分割精度，该算法在多个数据集上取得了超过现有方法的精度并在效率和准确性之间达到了良好的平衡。

Jun, 2023

运动分析的鲁棒视觉跟踪

通过分析运动模式使用固有的张量结构进行片段分割和目标追踪，该算法在 LaSOT、AVisT、OTB100 和 GOT-10k 等基准测试中取得了有竞争力的结果，并能够实现实时操作。

Sep, 2023

无监督视频目标分割中以输出选择为选项处理动作

无监督视频对象分割是一项旨在在没有关于对象的外部指导的情况下检测视频中最显著的对象的任务。为了充分利用显著对象通常与背景具有不同的运动特征的属性，最近的方法共同使用从光流图提取的运动线索与从 RGB 图像提取的外观线索。然而，由于光流图通常与分割掩码非常相关，网络在网络训练期间容易过度依赖运动线索。因此，这种两流方法容易受到混淆的运动线索的干扰，使其预测不稳定。为了缓解这个问题，我们设计了一种将运动线索视为可选的新型运动作为选项网络。在网络训练期间，随机提供 RGB 图像而不是光流图给运动编码器，以隐式降低网络的运动依赖性。由于学习到的运动编码器可以处理 RGB 图像和光流图，因此可以根据所使用的信息源的运动输入生成两种不同的预测。为了充分利用这个特性，我们还提出了一种自适应输出选择算法来在测试时采用最佳的预测结果。我们提出的方法在所有公共基准数据集上都具有最先进的性能，甚至保持了实时推理速度。

Sep, 2023

YouTube-VOS: 序列到序列视频物体分割

本文介绍了一个基于大规模数据集的序列 - 序列网络，能够充分利用视频的长期时空信息进行分割，在 YouTube-VOS 测试集上取得了最佳结果，在 DAVIS 2016 上与现有最先进方法相比也有可比性。

Sep, 2018

利用深度学习的光流生成移动物体候选框进行视频物体分割

本研究提出了一种先进的神经网络结构，通过训练无监督的卷积神经网络对光流进行估计，然后将光流网络的输出渲染到完全卷积 SegNet 模型中，从而准确高效地获取运动目标提案。

Feb, 2024

CVPR 2024 PVUW 复杂视频对象分割 MOSE 赛道第三名解决方案

视频目标分割是计算机视觉中的重要任务，研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响，并在复杂视频目标分割（MOSE）数据集上验证了我们方法的有效性，实验结果表明在测试集上达到了 0.8139 的 J&F 得分，在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。

Jun, 2024

通过运动分组的自监督视频目标分割

本研究介绍了一种基于运动线索的分割方法，使用 Transformer 网络结构，采用自我监督的方法进行训练，结果在公共基准测试中表现优异，证明在现有视频分割模型中，对于运动线索的重要性，以及对视觉外观存在潜在偏差的可能性。

Apr, 2021

DVOS: 自我监督的密集纹理视频目标分割

使用多任务学习的扩散方法，我们发展了一种半自监督时空方法，通过模拟真实视频的光流和运动来合成可用于训练 DVOS 模型的计算机注释视频；在小麦头部分割方面，我们提出的方法表现出较高的性能，当在无人机捕捉的外部测试集上进行测试时，Dice 分数达到了 0.82。

Jun, 2024