简化框架下可扩展的视频对象分割

ICCVAug, 2023

简化框架下可扩展的视频对象分割

Scalable Video Object Segmentation with Simplified Framework

Qiangqiang Wu, Tianyu Yang, Wei WU, Antoni Chan

TL;DR本研究提出了一种可扩展的简化 VOS（SimVOS）框架，通过利用单个转换器主干进行联合特征提取和匹配，从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明，SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果，即 DAVIS-2017（88.0％J＆F），DAVIS-2016（92.9％J＆F）和 YouTube-VOS 2019（84.2％J＆F），而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。

Abstract

The current popular methods for video object segmentation (vos) implement feature matching through several hand-crafted modules that separ

video object segmentation vos simvos feature extraction matching

发现论文，激发创造

OneVOS: 统一视频对象分割的全能变压器框架

在这篇论文中，我们提出了 OneVOS，这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens，通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外，我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力，以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后，为了减轻存储负担并加快推理速度，我们提出了动态 Token 选择器，该选择器揭示了 OneVOS 的工作机制，并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性，在七个数据集上实现了最先进的性能，特别是在复杂的 LVOS 和 MOSE 数据集上，J＆F 得分分别为 70.1％和 66.4％，超过了先前最先进的方法 4.2％和 7.0％。我们的代码可供再现性和进一步研究。

Mar, 2024

学习视频目标分割的快速和稳健的目标模型

该研究提出了一种新的视频对象分割方式，它由轻量级模块和分割模型两部分组成。在推理阶段使用快速优化技术学习目标外观模型，以预测出粗略但鲁棒的目标分割，然后将粗略的分数转化成高质量的分割掩模，该模式具有快速、易于训练、在有限的训练数据情况下仍然高效等优点。在挑战性的 YouTube-VOS 和 DAVIS 数据集上进行了广泛实验，其结果与现有技术相比具有更高的帧率和优异的性能。

Feb, 2020

视频对象分割的学习策略

该研究提出了一种新的、自动化的视频物体分割方法，通过集成一种可区分的少量样本学习模块，提高了分割精度，实现了当前 YouTube-VOS 2018 数据集的最新最佳分数，并使相对改进率达到了 2.6％以上。

Mar, 2020

视频对象分割的一次性训练

本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架，只需要一个标记的帧来训练，并适用于大多数最先进的 VOS 网络。通过双向训练，我们得到了一个令人满意的 VOS 网络，仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧，达到了与完全标记的数据集训练的结果相当的效果。

May, 2024

基于时间聚合网络和动态模板匹配的快速视频对象分割

本文介绍了一种将 “tracking-by-detection” 引入视频对象分割的方法，通过提出一种新的时间聚合网络和新的动态时间演进模板匹配机制，成功将分割与跟踪相一致，并在 DAVIS 基准测试中取得了新的最优表现。

Jul, 2020

TTVOS: 自适应模板注意力模块和时序一致性损失的轻量级视频目标分割

本文提出了一种基于模板匹配和时域一致性损失的半监督视频对象分割模型，以减少复杂性并加快推理时间，既提高了目标对象的定位，又能够处理细节，并通过新的自适应模板注意模块处理对象形状变化。该模型在 DAVIS16 基准上获得了 79.5% 的 J＆F 分数，速度为 73.8 FPS。

Nov, 2020

视频目标分割的特征、对应关系和压缩记忆的联合建模

提出了一种名为 JointFormer 的统一 VOS 框架，能够同时提取特征并传播目标信息，以进行全面的信息传播和辨别特征学习，通过在线更新机制，实现了对长期目标信息的整合，在多个基准测试上取得了较大幅度的优于现有算法的最新性能。

Aug, 2023

CVPR 2024 PVUW 复杂视频对象分割 MOSE 赛道第三名解决方案

视频目标分割是计算机视觉中的重要任务，研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响，并在复杂视频目标分割（MOSE）数据集上验证了我们方法的有效性，实验结果表明在测试集上达到了 0.8139 的 J&F 得分，在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。

Jun, 2024

SpVOS：具有三重稀疏卷积的高效视频目标分割

本文提出了一种名为 SpVOS 的 VOS 稀疏基线方法，通过开发一种新颖的三元稀疏卷积来减少整体 VOS 框架的计算成本，并结合稀疏训练策略对 VOS 分割性能和计算成本进行平衡，实验结果表明 SpVOS 在资源受限场景下具有应用潜力。

Oct, 2023

DeVOS: 流引导的可变形变压器用于视频对象分割

结合基于记忆的匹配和运动引导传播的 DeVOS（可变形视频对象分割）架构，用于视频对象分割，实现稳定的长期建模和强大的时间一致性。

May, 2024