OneVOS: 统一视频对象分割的全能变压器框架

Mar, 2024

OneVOS: 统一视频对象分割的全能变压器框架

OneVOS: Unifying Video Object Segmentation with All-in-One Transformer Framework

Wanyun Li, Pinxue Guo, Xinyu Zhou, Lingyi Hong, Yangji He...

TL;DR在这篇论文中，我们提出了 OneVOS，这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens，通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外，我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力，以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后，为了减轻存储负担并加快推理速度，我们提出了动态 Token 选择器，该选择器揭示了 OneVOS 的工作机制，并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性，在七个数据集上实现了最先进的性能，特别是在复杂的 LVOS 和 MOSE 数据集上，J＆F 得分分别为 70.1％和 66.4％，超过了先前最先进的方法 4.2％和 7.0％。我们的代码可供再现性和进一步研究。

Abstract

Contemporary video object segmentation (vos) approaches typically consist stages of feature extraction, matching, memory management, and multiple objects aggregation. Recent advanced models either employ a discre

video object segmentation vos onevos transformer attention mechanism

发现论文，激发创造

简化框架下可扩展的视频对象分割

本研究提出了一种可扩展的简化 VOS（SimVOS）框架，通过利用单个转换器主干进行联合特征提取和匹配，从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明，SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果，即 DAVIS-2017（88.0％J＆F），DAVIS-2016（92.9％J＆F）和 YouTube-VOS 2019（84.2％J＆F），而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。

Aug, 2023

TransVOS: 带有 Transformer 的视频目标分割

本文提出了一种新的基于 transformer 的框架 TransVOS，利用视觉 transformer 来充分利用和建模时间和空间关系，在保持效果的同时减少了模型参数和复杂性，从而实现了半监督视频对象分割中的最新性能。

Jun, 2021

视频对象分割的一次性训练

本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架，只需要一个标记的帧来训练，并适用于大多数最先进的 VOS 网络。通过双向训练，我们得到了一个令人满意的 VOS 网络，仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧，达到了与完全标记的数据集训练的结果相当的效果。

May, 2024

SSTVOS: 稀疏时空 Transformer 用于视频物体分割

介绍了一种基于 Transformer 的视频对象分割方法，称为 Sparse Spatiotemporal Transformers (SST)，使用稀疏注意力抽取每个对象的每个像素表示，同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果，并具有比现有技术更好的可扩展性和鲁棒性。

Jan, 2021

CVPR 2024 PVUW 复杂视频对象分割 MOSE 赛道第三名解决方案

视频目标分割是计算机视觉中的重要任务，研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响，并在复杂视频目标分割（MOSE）数据集上验证了我们方法的有效性，实验结果表明在测试集上达到了 0.8139 的 J&F 得分，在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。

Jun, 2024

学习视频目标分割的快速和稳健的目标模型

该研究提出了一种新的视频对象分割方式，它由轻量级模块和分割模型两部分组成。在推理阶段使用快速优化技术学习目标外观模型，以预测出粗略但鲁棒的目标分割，然后将粗略的分数转化成高质量的分割掩模，该模式具有快速、易于训练、在有限的训练数据情况下仍然高效等优点。在挑战性的 YouTube-VOS 和 DAVIS 数据集上进行了广泛实验，其结果与现有技术相比具有更高的帧率和优异的性能。

Feb, 2020

视频对象分割的学习策略

该研究提出了一种新的、自动化的视频物体分割方法，通过集成一种可区分的少量样本学习模块，提高了分割精度，实现了当前 YouTube-VOS 2018 数据集的最新最佳分数，并使相对改进率达到了 2.6％以上。

Mar, 2020

DeVOS: 流引导的可变形变压器用于视频对象分割

结合基于记忆的匹配和运动引导传播的 DeVOS（可变形视频对象分割）架构，用于视频对象分割，实现稳定的长期建模和强大的时间一致性。

May, 2024

视频目标分割的特征、对应关系和压缩记忆的联合建模

提出了一种名为 JointFormer 的统一 VOS 框架，能够同时提取特征并传播目标信息，以进行全面的信息传播和辨别特征学习，通过在线更新机制，实现了对长期目标信息的整合，在多个基准测试上取得了较大幅度的优于现有算法的最新性能。

Aug, 2023

被注意力背叛：一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是，DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外，利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战，利用 DINO 预训练的 Transformer 中新兴的对象性，避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能，特别在复杂的现实世界多对象视频分割任务中表现出色，如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。

Nov, 2023