融合框和掩码：统一视觉跟踪和分割的多目标框架

ICCVAug, 2023

融合框和掩码：统一视觉跟踪和分割的多目标框架

Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation

Yuanyou Xu, Zongxin Yang, Yi Yang

TL;DR本文提出了一种多对象掩膜 - 包围盒综合框架（MITS），用于统一的跟踪和分割。该框架通过引入统一的标识模块和精确的多对象包围盒预测器，从初始化到解码实现同时处理所有目标对象的编码、传播和解码，并在 VOT 和 VOS 基准测试中取得了最先进的性能。

Abstract

Tracking any given object(s) spatially and temporally is a common purpose in visual object tracking (VOT) and video object segmentation (VOS). Joint →

visual object tracking video object segmentation multi-object mask-box integrated framework tracking and segmentation state-of-the-art performance

发现论文，激发创造

模块化交互式视频物体分割：交互到掩膜，传播和差异感知融合

提出了一种基于交互的显著性目标分割框架 MiVOS，由交互模块和传播模块组成；其中交互模块实现用户交互和目标分割的转换，而传播模块则采用一种新颖的 top-k 过滤策略，结合时空记忆进行时序传播，并提出了一种差异感知模块以有效地将前后交互的掩模融合，最终在 DAVIS 数据集上取得了优异的表现。

Mar, 2021

快速在线物体跟踪和分割：一种统一的方法

该研究介绍了一种名为 SiamMask 的方法，可实现单个简单方法的实时视觉对象跟踪和半监督视频对象分割。在实时操作过程中，SiamMask 仅依赖于单个边界框初始化，以每秒 55 帧的速度产生类不可知对象分割掩模和旋转边界框。该方法在 VOT-2018 实时跟踪器中实现了新的最新技术，同时在 DAVIS-2016 和 DAVIS-2017 的半监督视频对象分割任务中提供了最佳速度和最佳性能。

Dec, 2018

高质量跟踪任何事物

HQTrack 是一个面向视频的高质量跟踪框架，主要由视频多目标分割器（VMOS）和掩模细化器（MR）组成，通过 VMOS 将物体掩模传播到当前帧，并利用预训练的 MR 模型来进一步提高跟踪掩模的质量。在 Visual Object Tracking and Segmentation（VOTS2023）挑战中，HQTrack 在不使用任何技巧的情况下，以第二名的成绩取得了显著的效果。

Jul, 2023

MOTS: 多目标跟踪和分割

本论文将多目标跟踪扩展到多目标跟踪和分割（MOTS）。为此，我们使用半自动注释程序为两个现有的跟踪数据集创建密集的像素级注释。通过我们的新注释，我们提出了一个新的基线方法，该方法使用单个卷积网络共同处理检测、跟踪和分割。我们演示了我们数据集的价值，在 MOTS 注释上训练可以提高性能，我们相信我们的数据集、指标和基线方法将成为开发超越 2D 边界框的多目标跟踪方法的宝贵资源。

Feb, 2019

无需训练的鲁棒交互式视频目标分割

我们提出了一种无需训练的提示跟踪框架，将稀疏点和框跟踪相结合，采用交叉循环时空模块从多次交互中自适应地聚合引用信息，实现了在流行的 VOS 数据集上稳定的零样本视频分割结果，保持了性能和交互时间之间的良好权衡。

Jun, 2024

OneVOS: 统一视频对象分割的全能变压器框架

在这篇论文中，我们提出了 OneVOS，这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens，通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外，我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力，以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后，为了减轻存储负担并加快推理速度，我们提出了动态 Token 选择器，该选择器揭示了 OneVOS 的工作机制，并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性，在七个数据集上实现了最先进的性能，特别是在复杂的 LVOS 和 MOSE 数据集上，J＆F 得分分别为 70.1％和 66.4％，超过了先前最先进的方法 4.2％和 7.0％。我们的代码可供再现性和进一步研究。

Mar, 2024

融合多种模态信息的统一视频物体分割时序变换器

本文提出了 MUTR，通过统一框架和两种策略，实现了同时支持文本和音频引用的视频对象分割，实现了视频内部各帧的时序交互，从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J＆F 性能。

May, 2023

视频对象分割的一次性训练

本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架，只需要一个标记的帧来训练，并适用于大多数最先进的 VOS 网络。通过双向训练，我们得到了一个令人满意的 VOS 网络，仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧，达到了与完全标记的数据集训练的结果相当的效果。

May, 2024

CML-MOTS：协同多任务学习用于多目标跟踪和分割

我们提出了一个在视频帧上进行实例级视觉分析的有效框架，可以同时进行对象检测、实例分割和多对象跟踪。通过一种名为关联连接的新型结构，我们实现了协同多任务学习，在可学习的 CNN 中的检测、分割和跟踪任务之间建立了额外的连接。这些额外的连接允许信息在多个相关任务之间传播，同时使这些任务受益。我们在 KITTI MOTS 和 MOTS 挑战数据集上广泛评估了所提出的方法，并获得了令人鼓舞的结果。

Nov, 2023

MHP-VOS：视频目标分割的多假设传播

本文提出一种新方法来解决半监督视频对象分割问题，采用基于 Multiple Hypotheses Tracking 的 Bounding Box 假设来跟踪视频中的目标物体，并通过基于运动模型的门控策略来产生多个假设，最后采用自定义的算法来处理目标缺失和掩膜冲突等问题，通过大量的测试证明本方法具有良好的效果。

Apr, 2019